Правила оповещения Визион

1. Общая информация о правилах оповещения Визион#

Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .

В поле “Описание” в списке уведомлений попадает значение из поля “Шаблон сообщения” в Правиле Оповещения.

Период определяет интервал времени, в течение которого выражение определяющее правило оповещения остается истинным прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.

Важность определяет значимость события для пользователя. Важность может принимать следующие значения:

  • critical (максимальная важность)
  • info
  • warning

Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.

Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.

2. Список правил оповещения входящих в поставку Визион#

Название правила PromQL выражение Период Важность Шаблон
Количество активных сессий достигло 100 pg_stat_activity_count > 100 and pg_stat_activity_count < 500 30s warning
Лаг репликации достиг значения 50 pg_replication_lag > 50 and pg_replication_lag < 100 5m warning
Количество активных сессий достигло 500 pg_stat_activity_count > 500 30s critical
Лаг репликации достиг значения 100 pg_replication_lag > 100 5m critical
Активных процессов автовакуума больше 3 spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6 1m warning
Активных процессов автовакуума больше 6 spectrum_autovacuum_proc_count > 6 1m warning
Используется более 50 GB TEMP pg_stat_database_temp_bytes < 50 and pg_stat_database_temp_bytes < 100 5m warning
Используется более 100 GB TEMP pg_stat_database_temp_bytes > 100 5m critical
Диск недоступен era_disk_state == 0 4h critical
RAID не может завершить реконструкцию era_raid_state_initialization == 10 1h critical
RAID не смог восстановиться era_raid_state_initialization == 11 1h critical
RAID нуждается в инициализации era_raid_state_initialization == 2 30m warning
RAID нуждается в реконструкции era_raid_state_initialization == 7 4h critical
RAID недоступен era_raid_state_availability == 0 30m critical
Существенный износ диска era_disk_wear > 75 24h warning
Критический износ диска era_disk_wear > 90 4h critical
Месяц до истечения лицензии ((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7) 0s warning
Неделя до истечения лицензии ((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1 0s critical
Лицензия неактивна era_license_status != 1 0s critical
Память узла почти заполнена node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 2m warning Осталось менее 10% свободной памяти узла
Системе не хватает свободной памяти rate(node_vmstat_pgmajfault[1m]) > 1000 2m warning Большая нагрузка на память узла. Слишком часто происходят отказы главной страницы
Недоиспользование памяти узла (100 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes * 100) < 20) 4d info Память узла заполнена менее чем на 20% последние 4 дня
Необычная активность сети: входящие данные sum by (instance) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100 5m warning Сеть начала резко получать более 100 мб/с
Необычная активность сети: исходящие данные sum by (instance) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100 5m warning Сеть начала резко отдавать более 100 мб/с
Необычная активность при чтении диска sum by (instance) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50 5m warning Диск начал резко читать более 50 мб/с
Необычная активность при записи на диск sum by (instance) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50 5m warning Диск начал резко писать более 50 мб/с
Диск почти заполнен (node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0 2m warning Дисковое пространство на хосте почти заполнено и закончится в течение 24 часов
На диске почти закончились свободные индексные дескриптеры node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0 2m warning Индексные дескриптеры заполнены на 90%
Ошибка файловой системы node_filesystem_device_error == 1 2m critical Ошибка файловой системы
Индексные дескриптеры скоро заполнятся node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0 2m warning Индексные дескриптеры заполнятся в течение 24 часов
Необычная задержка при чтении файлов с диска rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0 2m warning Задержка при чтении файлов с диска выше 100 мс
Необычная задержка при записи файлов на диск rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0 2m warning Задержка при записи файлов на диск выше 100 мс
Большая нагрузка на ЦП avg by (mode, instance) (rate(node_cpu_seconds_total{mode!=“idle”}[2m]) * 100) > 80 2m warning ЦП загружен на более чем 80%
Слишком низкая загрузка на процессор 100 - (rate(node_cpu_seconds_total{mode=“idle”}[30m]) * 100) < 20 4d warning ЦП загружен менее чем на 20% последние 4 дня
Нехватка порцессорного времени. avg by(instance) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) * 100 > 10 0m warning Нехватка процессорного времени превышает 10%. “Шумный сосед” крадёт слишком много ресурсов
Iowat ЦП превышает 10% avg by (instance) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) * 100 > 10 0m warning Iowat ЦП превышает 10%
Необычная активность IO на диске хоста rate(node_disk_io_time_seconds_total[1m]) > 0.5 5m warning Время, проведённое в IO, слишком велико
Часто происходит смена контекста на хосте “(rate(node_context_switches_total[15m])/count (node_cpu_seconds_total{mode=““idle””}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=““idle””})) > 2” 0m warning Частота смены контекста на хосте активно растёт
SWAP хоста заполняется (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 80 2m warning SWAP хоста заполнен более чем на 80%
Out of Memory Killer начал работу increase(node_vmstat_oom_kill[1m]) > 0 0m warning Out of Memory Killer начал работу
Рост сетевых ошибок на получение на хосте rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 2m warning В последние две минуты увеличилось число сетевых ошибок на хосте на получение
Рост сетевых ошибок на передачу на хосте rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 2m warning В последние две минуты увеличилось число сетевых ошибок на хосте на передачу
Интерфейс сети перегружен (rate(node_network_receive_bytes_total{device!~"^tap.* ^vnet.* ^veth.* ^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.
Системное время рассинхронизировано (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0) 10m warning Системное время рассинхронизировано на более чем 0.05 секунд
Время на сервере не синхронизируется (node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0) 2m warning Время на сервере не синхронизируется