1. Общая информация о правилах оповещения Визион#
Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .
В поле “Описание” в списке уведомлений попадает значение из поля “Шаблон сообщения” в Правиле Оповещения.
Период определяет интервал времени, в течение которого выражение определяющее правило оповещения остается истинным прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.
Важность определяет значимость события для пользователя. Важность может принимать следующие значения:
- critical (максимальная важность)
- info
- warning
Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.
Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.
2. Список правил оповещения входящих в поставку Визион#
Название правила | PromQL выражение | Период | Важность | Шаблон | Тип ПАК |
---|---|---|---|---|---|
Память узла почти заполнена | node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 | 2m | warning | Осталось менее 10% свободной памяти узла | Все |
Недоиспользование памяти узла | (100 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes * 100) < 20) | 4d | info | Память узла заполнена менее чем на 20% за последние 4 дня | Все |
Необычная активность IO на диске хоста | rate(node_disk_io_time_seconds_total[1m]) > 0.5 | 5m | warning | Время, проведённое в IO, более 5 минут | Все |
Часто происходит смена контекста на хосте | (rate(node_context_switches_total[15m])/count (node_cpu_seconds_total{mode=“idle”}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=“idle”})) > 2 | 0m | warning | Частота смены контекста на хосте активно растёт | Все |
SWAP хоста заполняется | (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 80 | 2m | warning | SWAP хоста заполнен более чем на 80% | Все |
Out of Memory Killer начал работу | increase(node_vmstat_oom_kill[1m]) > 0 | 0m | warning | Out of Memory Killer начал работу | Все |
Рост сетевых ошибок на получение на хосте | rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 | 2m | warning | В последние две минуты увеличилось число сетевых ошибок на хосте на получение | Все |
Рост сетевых ошибок на передачу на хосте | rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 | 2m | warning | В последние две минуты увеличилось число сетевых ошибок на хосте на передачу | Все |
Время на сервере не синхронизируется | (node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0) | 2m | warning | Время на сервере не синхронизируется | Все |
Количество активных сессий достигло 100 (PG) | pg_stat_activity_count > 100 and pg_stat_activity_count < 500 | 30s | warning | Количество активных сессий достигло 100 | МБД.П |
Лаг репликации достиг значения 50 (PG) | pg_replication_lag > 50 and pg_replication_lag < 100 | 5m | warning | Лаг репликации достиг значения 50 | МБД.П |
Количество активных сессий достигло 500 (PG) | pg_stat_activity_count > 500 | 30s | critical | Количество активных сессий достигло 500 | МБД.П |
Лаг репликации достиг значения 100 (PG) | pg_replication_lag > 100 | 5m | critical | Лаг репликации достиг значения 100 | МБД.П |
Активных процессов автовакуума больше 3 (PG) | spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6 | 1m | warning | Активных процессов автовакуума больше 3 | МБД.П |
Активных процессов автовакуума больше 6 (PG) | spectrum_autovacuum_proc_count > 6 | 1m | warning | Активных процессов автовакуума больше 6 | МБД.П |
Используется более 50 GB TEMP (PG) | pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100 | 5m | warning | Используется более 50 GB TEMP | МБД.П |
Используется более 100 GB TEMP (PG) | pg_stat_database_temp_bytes > 100 | 5m | critical | Используется более 100 GB TEMP | МБД.П |
ERA: Диск недоступен | era_disk_state == 0 | 4h | critical | Диск недоступен | МБД.П |
ERA RAID не может завершить реконструкцию | era_raid_state_initialization == 10 | 1h | critical | RAID не может завершить реконструкцию | МБД.П |
ERA RAID не смог восстановиться | era_raid_state_initialization == 11 | 1h | critical | RAID не смог восстановиться | МБД.П |
ERA RAID нуждается в инициализации | era_raid_state_initialization == 2 | 30m | warning | RAID нуждается в инициализации | МБД.П |
ERA RAID нуждается в реконструкции | era_raid_state_initialization == 7 | 4h | critical | RAID нуждается в реконструкции | МБД.П |
ERA RAID недоступен | era_raid_state_availability == 0 | 30m | critical | RAID недоступен | МБД.П |
ERA: Существенный износ диска | era_disk_wear > 75 | 24h | warning | Существенный износ диска | МБД.П |
ERA: Критический износ диска | era_disk_wear > 90 | 4h | critical | Критический износ диска | МБД.П |
Месяц до истечения лицензии ERA | ((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7) | 0s | warning | До истечения срока действия лицензии остался месяц | МБД.П |
Неделя до истечения лицензии ERA | ((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1 | 0s | critical | До истечения срока действия лицензии осталась неделя | МБД.П |
ERA: Лицензия неактивна | era_license_status != 1 | 0s | critical | Лицензия неактивна | МБД.П |
Системе не хватает свободной памяти на узле | rate(node_vmstat_pgmajfault[1m]) > 1000 | 2m | warning | Большая нагрузка на память узла. Слишком часто происходят отказы главной страницы | Все |
Необычная активность сети на узле: входящие данные | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100 | 5m | warning | Сеть начала резко получать более 100 мб/с | Все |
Необычная активность сети на узле: исходящие данные | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100 | 5m | warning | Сеть начала резко отдавать более 100 мб/с | Все |
Необычная активность при чтении диска на узле | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50 | 5m | warning | Диск начал резко читать более 50 мб/с | Все |
Необычная активность при записи на диск на узле | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50 | 5m | warning | Диск начал резко писать более 50 мб/с | Все |
Дисковое пространство на узле почти заполнено | (node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0 | 2m | warning | Дисковое пространство на хосте почти заполнено и закончится в течение 24 часов | Все |
На диске на узле почти закончились свободные индексные дескрипторы | node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0 | 2m | warning | Индексные дескрипторы заполнены на 90% | Все |
Ошибка файловой системы на узле | node_filesystem_device_error == 1 | 2m | critical | Ошибка файловой системы | Все |
Индексные дескрипторы на узле скоро заполнятся | node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0 | 2m | warning | Индексные дескрипторы заполнятся в течение 24 часов | Все |
Необычная задержка при чтении файлов с диска на узле | rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0 | 2m | warning | Задержка при чтении файлов с диска выше 100 мс | Все |
Необычная задержка при записи файлов на диск на узле | rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0 | 2m | warning | Задержка при записи файлов на диск выше 100 мс | Все |
Большая нагрузка на ЦП на узле | avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!=“idle”}[2m]) * 100) > 80 | 2m | warning | ЦП загружен на более чем 80% | Все |
Слишком низкая загрузка на процессор на узле | 100 - (rate(node_cpu_seconds_total{mode=“idle”}[30m]) * 100) < 20 | 4d | warning | ЦП загружен менее чем на 20% последние 4 дня | Все |
Нехватка процессорного времени на узле | avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) * 100 > 10 | 0m | warning | Нехватка процессорного времени превышает 10%. “Шумный сосед” крадёт слишком много ресурсов | Все |
Iowat ЦП на узле превышает 10% | avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) * 100 > 10 | 0m | warning | Iowat ЦП превышает 10% | Все |
Интерфейс сети на узле перегружен | (rate(node_network_receive_bytes_total{device!~"^tap.|^vnet.|^veth.|^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.|^vnet.|^veth.|^tun."}[1m])) / node_network_speed_bytes{device!~"^tap.|^vnet.|^veth.|^tun."} > 0.8 < 10000 | 1m | warning | Интерфейс сети перегружен | Все |
Системное время на узле рассинхронизировано | (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0) | 10m | warning | Системное время рассинхронизировано на более чем 0.05 секунд | Все |
Не поступают данные с устройства SNMP | up{job=~“snmp.*”} != 1 | 5m | critical | Не удалось собрать данные с SNMP-устройства | Все |
SNMP-устройство работает без перезапуска более 2.5 лет | sysUpTime > 7776000000 | 2m | warning | SNMP-устройство работает без перезапуска более 2.5 лет | Все |
SNMP: Порт изменил своё состояние | delta(ifOperStatus[15m]) != 0 | 2m | critical | В последние 15 минут порт изменил своё состояние. Возможно, он выключен или перезапущен | Все |
SNMP: Входящий трафик порта коммутатора приближается к пороговому значению | (rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 | 6m | warning | SNMP: Входящий трафик порта коммутатора выше 75% от пропускной способности. | Все |
SNMP: Исходящий трафик порта коммутатора приближается к пороговому значению | (rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 | 6m | warning | SNMP: Исходящий трафик порта коммутатора выше 75% от пропускной способности. | Все |
SNMP: Замечено аномальное увеличение трафика | rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) | 12m | info | SNMP: Замечено аномальное увеличение трафика | Все |
SNMP: Рост количества ошибок на входящий трафик | rate(ifInErrors[4m]) > 10 | 6m | warning | SNMP: Количество ошибок на входящий трафик превысило 10 | Все |
SNMP: Рост количества ошибок на исходящий трафик | rate(ifOutErrors[4m]) > 10 | 6m | warning | SNMP: Количество ошибок на исходящий трафик превысило 10 | Все |
SNMP: Рост количества отклонённых пакетов на исходящий трафик | rate(ifOutDiscards[4m]) > 10 | 6m | warning | SNMP: Количество отклонённых пакетов на исходящий трафик превысило 10 | Все |
SNMP: Рост количества отклонённых пакетов на входящий трафик | rate(ifInDiscards[4m]) > 10 | 6m | warning | SNMP: Количество отклонённых пакетов на входящий трафик превысило 10 | Все |
SNMP: Большое количество передаваемых пакетов на входящий трафик | rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000 | 6m | info | SNMP: Зафиксирован рост числа передаваемых пакетов на входящий трафик | Все |
SNMP: Большое количество передаваемых пакетов на исходящий трафик | rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h) * 2.50 > 100000 | 6m | info | SNMP: Зафиксирован рост числа передаваемых пакетов на исходящий трафик | Все |
Инстанс Picodata находится в режиме только для чтения | tnt_read_only == 1 | 0m | critical | Инстанс Picodata находится в режиме только для чтения | МБД.Т |
Узел Picodata задействован в выборе лидера и принял соответствующее состояние | tnt_election_state == 1 | 0m | critical | Узел Picodata задействован в выборе лидера и принял соответствующее состояние | МБД.Т |
Количество текущих соединений Greenplum достигло 80% от возможного | greenplum_current_connections_ratio > 80 and greenplum_current_connections_ratio < 90 | 30m | Warning | Количество текущих соединений Greenplum достигло 80% от возможного | МБД.Г |
Количество текущих соединений Greenplum достигло 90% от возможного | greenplum_current_connections_ratio > 90 | 30m | Critical | Количество текущих соединений Greenplum достигло 90% от возможного | МБД.Г |
Общий объем Spill-файлов Greenplum превысил 30 GB | greenplum_spill_size_total > 30 and greenplum_spill_size_total < 50 | 30m | Warning | Общий объем Spill-файлов Greenplum превысил 30 GB | МБД.Г |
Общий объем Spill-файлов Greenplum превысил 50 GB | greenplum_spill_size_total > 50 | 30m | Critical | Общий объем Spill-файлов Greenplum превысил 50 GB | МБД.Г |
Ведущий узел Greenplum находится в отключенном состоянии | greenplum_master_up == 0 | 0m | Critical | Ведущий узел Greenplum находится в отключенном состоянии | МБД.Г |
Имеются primary-сегменты Greenplum в статусе down | greenplum_primary_segments_down_count > 0 | 0m | Critical | Один и более primary-сегментов Greenplum находятся в статусе down | МБД.Г |
Имеются mirror-сегменты Greenplum в статусе down | greenplum_mirror_segments_down_count > 0 | 0m | Critical | Один и более mirror-сегментов Greenplum находятся в статусе down | МБД.Г |
Разделы Greenplum занимают более 80% доступного пространства | greenplum_partition_ratio > 80 and greenplum_partition_ratio < 90 | 30m | Warning | Разделы Greenplum занимают более 80% доступного пространства | МБД.Г |
Разделы Greenplum занимают более 90% доступного пространства | greenplum_partition_ratio > 90 | 30m | Critical | Разделы Greenplum занимают более 90% доступного пространства | МБД.Г |
Имеются ошибки типа “Panic” и “Reset” в pg_log Greenplum | greenplum_pg_log_reset_panic_for_hour_count > 1 | 0m | Critical | За последний час в pg_log были зафиксированы ошибки типа Panic и Reset | МБД.Г |
Greenplum не находится в обычном одиночном или многопользовательском режиме | greenplum_cluster_status != 1 and greenplum_cluster_status != 0 | 0m | Critical | Greenplum не находится в обычном одиночном или многопользовательском режиме. Возможно, он в режиме администратора или любом другом режиме | МБД.Г |
Имеются подключения к Greenplum, находящиеся в активном состоянии более часа | greenplum_active_session_for_hour_count > 0 | 5m | Warning | Имеются активные подключения к Greenplum, находящиеся в этом статусе более часа | МБД.Г |
Имеются подключения к Greenplum, находящиеся в своём состоянии более часа | greenplum_session_for_hour_count > 0 | 5m | Warning | Имеются подключения к Greenplum, не менявшие свой статус более часа | МБД.Г |
Имеется больше 10 блокировок в БД Greenplum | greenplum_locks_count > 10 and greenplum_locks_count < 20 | 0m | Warning | Имеется больше 10 блокировок в БД Greenplum | МБД.Г |
Имеется больше 20 блокировок в БД Greenplum | greenplum_locks_count > 20 | 0m | Critical | Имеется больше 20 блокировок в БД Greenplum | МБД.Г |
Имеются файлы pg_log (Greenplum) старше 3 месяцев | greenplum_pg_log_three_month_old_count > 0 | 0m | Warning | Есть файлы pg_log Greenplum старше 3 месяцев | МБД.Г |
Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) за текущий день превысило 100 | greenplum_pg_log_errors_fatal > 100 and greenplum_pg_log_errors_fatal < 300 | 0m | Warning | В pg_log (Greenplum) количество записей с уровнем ERROR и FATAL больше 100 | МБД.Г |
Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) за текущий день превысило 300 | greenplum_pg_log_errors_fatal > 300 | 0m | Critical | В pg_log (Greenplum) количество записей с уровнем “ERROR” и FATAL больше 300 | МБД.Г |
Отсутствует процесс сервера ClickHouse | ’namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0' | 0m | info | Отсутствует процесс сервера ClickHouse | МБД.КХ |
Процесс сервера ClickHouse отсутствует более 5 минут | ’namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0' | 5m | warning | Процесс сервера ClickHouse отсутствует более 5 минут | МБД.КХ |
Количество одновременных запросов к БД ClickHouse достигло значения 90 | ‘clickhouse_simultaneous_queries > 90’ | 5m | warning | Количество одновременных запросов к БД ClickHouse достигло значения 90 | МБД.КХ |
Количество одновременных запросов к БД ClickHouse достигло значения 100 | ‘clickhouse_simultaneous_queries >= 100’ | 30s | critical | Количество одновременных запросов к БД ClickHouse достигло значения 100 | МБД.КХ |
Имеются зависшие задачи репликации ClickHouse | ‘clickhouse_replication_stuck_task_count > 0’ | 5m | warning | Имеются зависшие задачи репликации ClickHouse | МБД.КХ |
ZooKeeper ClickHouse недоступен | ‘clickhouse_zookeeper_status == 0’ | 0m | critical | ZooKeeper ClickHouse недоступен | МБД.КХ |
Время ответа ZooKeeper превысило 1000 микросекунд | ‘clickhouse_zookeeper_response_microseconds > 0’ | 5m | warning | Время ответа ZooKeeper превысило 1000 микросекунд | МБД.КХ |
Количество ожидающих запросов ZooKeeper превысило 50 | ‘clickhouse_zookeeper_outstanding_request_count > 50’ | 5m | warning | Количество ожидающих запросов ZooKeeper превысило 50 | МБД.КХ |
Максимальная разница в сек. между свежей реплиц. частью и свежей частью данных превысила 60 секунд | ‘clickhouse_replicas_max_delay_seconds > 60’ | 5m | warning | Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд | МБД.КХ |
ClickHouse был перезапущен | ‘clickhouse_uptime < clickhouse_uptime offset 1m’ | 0m | warning | ClickHouse был перезапущен | МБД.КХ |
3. Правила оповещения Picodata#
Для Picodata нельзя определить универсальные значения, по которым нужно оповещать пользователя, поэтому предлагается шаблон, который позволяет пользователю создать собственные правила оповещения и выставить интересующие значения в зависимости от развёрнутого инстанса.
Название правила | PromQL выражение | Период | Важность | Шаблон | Тип ПАК |
---|---|---|---|---|---|
Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение | tnt_cpu_user_time > X | 10m | warning | Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение | МБД.Т |
Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение | tnt_cpu_system_time > X | 10m | warning | Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение | МБД.Т |
Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение | tnt_slab_arena_used > X | 10m | warning | Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение | МБД.Т |
Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение | tnt_slab_arena_used_ratio > X | 10m | warning | Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение | МБД.Т |
Объем данных, хранимых в файлах Picodata, превысил допустимое значение | tnt_vinyl_disk_data_size > X | 10m | warning | Объем данных, хранимых в файлах Picodata, превысил допустимое значение | МБД.Т |
Объем индекса, хранимого в файлах Picodata, превысил допустимое значение | tnt_vinyl_disk_index_size > X | 10m | warning | Объем индекса, хранимого в файлах Picodata, превысил допустимое значение | МБД.Т |
Размер индексов страниц данного инстанса Picodata превысил допустимое значение | tnt_vinyl_memory_page_index > X | 10m | warning | Размер индексов страниц данного инстанса Picodata превысил допустимое значение | МБД.Т |
Общее количество запросов Picodata превысило допустимое значение | tnt_net_requests_total > X | 10m | warning | Общее количество запросов Picodata превысило допустимое значение | МБД.Т |
Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение | tnt_net_requests_in_progress_current > X | 10m | warning | Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение | МБД.Т |
Общее количество соединений с Picodata превысило допустимое значение | tnt_net_connections_total > X | 10m | warning | Общее количество соединений с Picodata превысило допустимое значение | МБД.Т |
Текущее количество соединений с Picodata превысило допустимое значение | tnt_net_connections_current > X | 10m | warning | Текущее количество соединений с Picodata превысило допустимое значение | МБД.Т |
Общее количество освобожденной памяти Picodata превысило допустимое значение | lj_gc_freed_total > | 10m | warning | Общее количество освобожденной памяти Picodata превысило допустимое значение | МБД.Т |
Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение | lj_gc_steps_pause_total > X | 10m | warning | Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение | МБД.Т |
Количество фиксаций транзакций в Picodata превысило допустимое значение | tnt_vinyl_tx_commit > X | 10m | warning | Количество фиксаций транзакций в Picodata превысило допустимое значение | МБД.Т |
Количество откатов транзакций в Picodata превысило допустимое значение | tnt_vinyl_tx_rollback > X | 10m | warning | Количество откатов транзакций в Picodata превысило допустимое значение | МБД.Т |
Количество потоков на инстансе Picodata превысило допустимое значение | tnt_fiber_amount > X | 10m | warning | Количество потоков на инстансе Picodata превысило допустимое значение | МБД.Т |
Объём используемой памяти потоков Picodata превысил допустимое значение | tnt_fiber_memused > X | 10m | warning | Объём используемой памяти потоков Picodata превысил допустимое значение | МБД.Т |
4. Правила оповещения ClickHouse#
Для мониторинга доступности узлов ClickHouse используется blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Пользователю предлагается настроить его самостоятельно по данному шаблону:
Название правила | PromQL выражение | Период | Важность | Шаблон | Тип ПАК |
---|---|---|---|---|---|
Отсутствует связь с сервером ClickHouse | ‘probe_success{instance=“X:8123”} == 0’ | 0m | info | Отсутствует связь с сервером ClickHouse | МБД.КХ |
Связь с сервером ClickHouse отсутствует более 5 минут | ‘probe_success{instance=“X:8123”} == 0’ | 5m | warning | Связь с сервером ClickHouse отсутствует более 5 минут | МБД.КХ |
Отсутствует связь с сервером реплики ClickHouse | ‘probe_success{instance=“X:8123/replicas_status”} == 0’ | 5m | warning | Отсутствует связь с сервером реплики ClickHouse | МБД.КХ |