1. Общая информация о правилах оповещения Визион#
Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .
В поле “Описание” в списке уведомлений попадает значение из поля “Шаблон сообщения” в Правиле Оповещения.
Период определяет интервал времени, в течение которого выражение определяющее правило оповещения остается истинным прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.
Важность определяет значимость события для пользователя. Важность может принимать следующие значения:
- critical (максимальная важность)
- info
- warning
Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.
Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.
2. Список правил оповещения входящих в поставку Визион#
Название правила | PromQL выражение | Период | Важность | Шаблон |
---|---|---|---|---|
Количество активных сессий достигло 100 | pg_stat_activity_count > 100 and pg_stat_activity_count < 500 | 30s | warning | |
Лаг репликации достиг значения 50 | pg_replication_lag > 50 and pg_replication_lag < 100 | 5m | warning | |
Количество активных сессий достигло 500 | pg_stat_activity_count > 500 | 30s | critical | |
Лаг репликации достиг значения 100 | pg_replication_lag > 100 | 5m | critical | |
Активных процессов автовакуума больше 3 | spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6 | 1m | warning | |
Активных процессов автовакуума больше 6 | spectrum_autovacuum_proc_count > 6 | 1m | warning | |
Используется более 50 GB TEMP | pg_stat_database_temp_bytes < 50 and pg_stat_database_temp_bytes < 100 | 5m | warning | |
Используется более 100 GB TEMP | pg_stat_database_temp_bytes > 100 | 5m | critical | |
Диск недоступен | era_disk_state == 0 | 4h | critical | |
RAID не может завершить реконструкцию | era_raid_state_initialization == 10 | 1h | critical | |
RAID не смог восстановиться | era_raid_state_initialization == 11 | 1h | critical | |
RAID нуждается в инициализации | era_raid_state_initialization == 2 | 30m | warning | |
RAID нуждается в реконструкции | era_raid_state_initialization == 7 | 4h | critical | |
RAID недоступен | era_raid_state_availability == 0 | 30m | critical | |
Существенный износ диска | era_disk_wear > 75 | 24h | warning | |
Критический износ диска | era_disk_wear > 90 | 4h | critical | |
Месяц до истечения лицензии | ((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7) | 0s | warning | |
Неделя до истечения лицензии | ((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1 | 0s | critical | |
Лицензия неактивна | era_license_status != 1 | 0s | critical | |
Память узла почти заполнена | node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 | 2m | warning | Осталось менее 10% свободной памяти узла |
Системе не хватает свободной памяти | rate(node_vmstat_pgmajfault[1m]) > 1000 | 2m | warning | Большая нагрузка на память узла. Слишком часто происходят отказы главной страницы |
Недоиспользование памяти узла | (100 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes * 100) < 20) | 4d | info | Память узла заполнена менее чем на 20% последние 4 дня |
Необычная активность сети: входящие данные | sum by (instance) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100 | 5m | warning | Сеть начала резко получать более 100 мб/с |
Необычная активность сети: исходящие данные | sum by (instance) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100 | 5m | warning | Сеть начала резко отдавать более 100 мб/с |
Необычная активность при чтении диска | sum by (instance) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50 | 5m | warning | Диск начал резко читать более 50 мб/с |
Необычная активность при записи на диск | sum by (instance) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50 | 5m | warning | Диск начал резко писать более 50 мб/с |
Диск почти заполнен | (node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0 | 2m | warning | Дисковое пространство на хосте почти заполнено и закончится в течение 24 часов |
На диске почти закончились свободные индексные дескриптеры | node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0 | 2m | warning | Индексные дескриптеры заполнены на 90% |
Ошибка файловой системы | node_filesystem_device_error == 1 | 2m | critical | Ошибка файловой системы |
Индексные дескриптеры скоро заполнятся | node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0 | 2m | warning | Индексные дескриптеры заполнятся в течение 24 часов |
Необычная задержка при чтении файлов с диска | rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0 | 2m | warning | Задержка при чтении файлов с диска выше 100 мс |
Необычная задержка при записи файлов на диск | rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0 | 2m | warning | Задержка при записи файлов на диск выше 100 мс |
Большая нагрузка на ЦП | avg by (mode, instance) (rate(node_cpu_seconds_total{mode!=“idle”}[2m]) * 100) > 80 | 2m | warning | ЦП загружен на более чем 80% |
Слишком низкая загрузка на процессор | 100 - (rate(node_cpu_seconds_total{mode=“idle”}[30m]) * 100) < 20 | 4d | warning | ЦП загружен менее чем на 20% последние 4 дня |
Нехватка порцессорного времени. | avg by(instance) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) * 100 > 10 | 0m | warning | Нехватка процессорного времени превышает 10%. “Шумный сосед” крадёт слишком много ресурсов |
Iowat ЦП превышает 10% | avg by (instance) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) * 100 > 10 | 0m | warning | Iowat ЦП превышает 10% |
Необычная активность IO на диске хоста | rate(node_disk_io_time_seconds_total[1m]) > 0.5 | 5m | warning | Время, проведённое в IO, слишком велико |
Часто происходит смена контекста на хосте | “(rate(node_context_switches_total[15m])/count (node_cpu_seconds_total{mode=““idle””}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=““idle””})) > 2” | 0m | warning | Частота смены контекста на хосте активно растёт |
SWAP хоста заполняется | (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 80 | 2m | warning | SWAP хоста заполнен более чем на 80% |
Out of Memory Killer начал работу | increase(node_vmstat_oom_kill[1m]) > 0 | 0m | warning | Out of Memory Killer начал работу |
Рост сетевых ошибок на получение на хосте | rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 | 2m | warning | В последние две минуты увеличилось число сетевых ошибок на хосте на получение |
Рост сетевых ошибок на передачу на хосте | rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 | 2m | warning | В последние две минуты увеличилось число сетевых ошибок на хосте на передачу |
Интерфейс сети перегружен | (rate(node_network_receive_bytes_total{device!~"^tap.* | ^vnet.* | ^veth.* | ^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap. |
Системное время рассинхронизировано | (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0) | 10m | warning | Системное время рассинхронизировано на более чем 0.05 секунд |
Время на сервере не синхронизируется | (node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0) | 2m | warning | Время на сервере не синхронизируется |