Правила оповещения Визион

1. Общая информация о правилах оповещения Визион#

Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .

В поле “Описание” в списке уведомлений попадает значение из поля “Шаблон сообщения” в Правиле Оповещения.

Период определяет интервал времени, в течение которого выражение определяющее правило оповещения остается истинным прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.

Важность определяет значимость события для пользователя. Важность может принимать следующие значения:

  • critical (максимальная важность)
  • info
  • warning

Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.

Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.

2. Список правил оповещения входящих в поставку Визион#

Название правила PromQL выражение Период Важность Шаблон Тип ПАК
Память узла почти заполнена node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 2m warning Осталось менее 10% свободной памяти узла Все
Недоиспользование памяти узла (100 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes * 100) < 20) 4d info Память узла заполнена менее чем на 20% за последние 4 дня Все
Необычная активность IO на диске хоста rate(node_disk_io_time_seconds_total[1m]) > 0.5 5m warning Время, проведённое в IO, более 5 минут Все
Часто происходит смена контекста на хосте (rate(node_context_switches_total[15m])/count (node_cpu_seconds_total{mode=“idle”}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=“idle”})) > 2 0m warning Частота смены контекста на хосте активно растёт Все
SWAP хоста заполняется (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 80 2m warning SWAP хоста заполнен более чем на 80% Все
Out of Memory Killer начал работу increase(node_vmstat_oom_kill[1m]) > 0 0m warning Out of Memory Killer начал работу Все
Рост сетевых ошибок на получение на хосте rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 2m warning В последние две минуты увеличилось число сетевых ошибок на хосте на получение Все
Рост сетевых ошибок на передачу на хосте rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 2m warning В последние две минуты увеличилось число сетевых ошибок на хосте на передачу Все
Время на сервере не синхронизируется (node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0) 2m warning Время на сервере не синхронизируется Все
Количество активных сессий достигло 100 (PG) pg_stat_activity_count > 100 and pg_stat_activity_count < 500 30s warning Количество активных сессий достигло 100 МБД.П
Лаг репликации достиг значения 50 (PG) pg_replication_lag > 50 and pg_replication_lag < 100 5m warning Лаг репликации достиг значения 50 МБД.П
Количество активных сессий достигло 500 (PG) pg_stat_activity_count > 500 30s critical Количество активных сессий достигло 500 МБД.П
Лаг репликации достиг значения 100 (PG) pg_replication_lag > 100 5m critical Лаг репликации достиг значения 100 МБД.П
Активных процессов автовакуума больше 3 (PG) spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6 1m warning Активных процессов автовакуума больше 3 МБД.П
Активных процессов автовакуума больше 6 (PG) spectrum_autovacuum_proc_count > 6 1m warning Активных процессов автовакуума больше 6 МБД.П
Используется более 50 GB TEMP (PG) pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100 5m warning Используется более 50 GB TEMP МБД.П
Используется более 100 GB TEMP (PG) pg_stat_database_temp_bytes > 100 5m critical Используется более 100 GB TEMP МБД.П
ERA: Диск недоступен era_disk_state == 0 4h critical Диск недоступен МБД.П
ERA RAID не может завершить реконструкцию era_raid_state_initialization == 10 1h critical RAID не может завершить реконструкцию МБД.П
ERA RAID не смог восстановиться era_raid_state_initialization == 11 1h critical RAID не смог восстановиться МБД.П
ERA RAID нуждается в инициализации era_raid_state_initialization == 2 30m warning RAID нуждается в инициализации МБД.П
ERA RAID нуждается в реконструкции era_raid_state_initialization == 7 4h critical RAID нуждается в реконструкции МБД.П
ERA RAID недоступен era_raid_state_availability == 0 30m critical RAID недоступен МБД.П
ERA: Существенный износ диска era_disk_wear > 75 24h warning Существенный износ диска МБД.П
ERA: Критический износ диска era_disk_wear > 90 4h critical Критический износ диска МБД.П
Месяц до истечения лицензии ERA ((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7) 0s warning До истечения срока действия лицензии остался месяц МБД.П
Неделя до истечения лицензии ERA ((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1 0s critical До истечения срока действия лицензии осталась неделя МБД.П
ERA: Лицензия неактивна era_license_status != 1 0s critical Лицензия неактивна МБД.П
Системе не хватает свободной памяти на узле rate(node_vmstat_pgmajfault[1m]) > 1000 2m warning Большая нагрузка на память узла. Слишком часто происходят отказы главной страницы Все
Необычная активность сети на узле: входящие данные sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100 5m warning Сеть начала резко получать более 100 мб/с Все
Необычная активность сети на узле: исходящие данные sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100 5m warning Сеть начала резко отдавать более 100 мб/с Все
Необычная активность при чтении диска на узле sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50 5m warning Диск начал резко читать более 50 мб/с Все
Необычная активность при записи на диск на узле sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50 5m warning Диск начал резко писать более 50 мб/с Все
Дисковое пространство на узле почти заполнено (node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0 2m warning Дисковое пространство на хосте почти заполнено и закончится в течение 24 часов Все
На диске на узле почти закончились свободные индексные дескрипторы node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0 2m warning Индексные дескрипторы заполнены на 90% Все
Ошибка файловой системы на узле node_filesystem_device_error == 1 2m critical Ошибка файловой системы Все
Индексные дескрипторы на узле скоро заполнятся node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0 2m warning Индексные дескрипторы заполнятся в течение 24 часов Все
Необычная задержка при чтении файлов с диска на узле rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0 2m warning Задержка при чтении файлов с диска выше 100 мс Все
Необычная задержка при записи файлов на диск на узле rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0 2m warning Задержка при записи файлов на диск выше 100 мс Все
Большая нагрузка на ЦП на узле avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!=“idle”}[2m]) * 100) > 80 2m warning ЦП загружен на более чем 80% Все
Слишком низкая загрузка на процессор на узле 100 - (rate(node_cpu_seconds_total{mode=“idle”}[30m]) * 100) < 20 4d warning ЦП загружен менее чем на 20% последние 4 дня Все
Нехватка процессорного времени на узле avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) * 100 > 10 0m warning Нехватка процессорного времени превышает 10%. “Шумный сосед” крадёт слишком много ресурсов Все
Iowat ЦП на узле превышает 10% avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) * 100 > 10 0m warning Iowat ЦП превышает 10% Все
Интерфейс сети на узле перегружен (rate(node_network_receive_bytes_total{device!~"^tap.|^vnet.|^veth.|^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.|^vnet.|^veth.|^tun."}[1m])) / node_network_speed_bytes{device!~"^tap.|^vnet.|^veth.|^tun."} > 0.8 < 10000 1m warning Интерфейс сети перегружен Все
Системное время на узле рассинхронизировано (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0) 10m warning Системное время рассинхронизировано на более чем 0.05 секунд Все
Не поступают данные с устройства SNMP up{job=~“snmp.*”} != 1 5m critical Не удалось собрать данные с SNMP-устройства Все
SNMP-устройство работает без перезапуска более 2.5 лет sysUpTime > 7776000000 2m warning SNMP-устройство работает без перезапуска более 2.5 лет Все
SNMP: Порт изменил своё состояние delta(ifOperStatus[15m]) != 0 2m critical В последние 15 минут порт изменил своё состояние. Возможно, он выключен или перезапущен Все
SNMP: Входящий трафик порта коммутатора приближается к пороговому значению (rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 6m warning SNMP: Входящий трафик порта коммутатора выше 75% от пропускной способности. Все
SNMP: Исходящий трафик порта коммутатора приближается к пороговому значению (rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 6m warning SNMP: Исходящий трафик порта коммутатора выше 75% от пропускной способности. Все
SNMP: Замечено аномальное увеличение трафика rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) 12m info SNMP: Замечено аномальное увеличение трафика Все
SNMP: Рост количества ошибок на входящий трафик rate(ifInErrors[4m]) > 10 6m warning SNMP: Количество ошибок на входящий трафик превысило 10 Все
SNMP: Рост количества ошибок на исходящий трафик rate(ifOutErrors[4m]) > 10 6m warning SNMP: Количество ошибок на исходящий трафик превысило 10 Все
SNMP: Рост количества отклонённых пакетов на исходящий трафик rate(ifOutDiscards[4m]) > 10 6m warning SNMP: Количество отклонённых пакетов на исходящий трафик превысило 10 Все
SNMP: Рост количества отклонённых пакетов на входящий трафик rate(ifInDiscards[4m]) > 10 6m warning SNMP: Количество отклонённых пакетов на входящий трафик превысило 10 Все
SNMP: Большое количество передаваемых пакетов на входящий трафик rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000 6m info SNMP: Зафиксирован рост числа передаваемых пакетов на входящий трафик Все
SNMP: Большое количество передаваемых пакетов на исходящий трафик rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h) * 2.50 > 100000 6m info SNMP: Зафиксирован рост числа передаваемых пакетов на исходящий трафик Все