Правила оповещения Визион

Общая информация о правилах оповещения Визион#

[Правило оповещения] является условием (определяется PromQL-выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .

В поле Имя в списке уведомлений попадает значение из поля Имя в правиле оповещения.

Период определяет интервал времени, в течение которого выражение, определяющее правило оповещения, остается истинным, прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.

Важность определяет значимость события для пользователя. Важность может принимать следующие значения (в порядке убывания):

  • critical — максимальная важность;
  • warning — важное событие;
  • info — информационное сообщение.

Шаблон влияет на форматирование сообщения, отправляемого пользователю на электронную почту.

Алерты, генерируемые на основе правил оповещения, отображаются в списке уведомлений в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведён ниже.

Универсальные правила#

Данные правила оповещения могут применяться вне зависимости от типа машины.

BondStatusNotActiveNegotiated#

Бонд узла находится в некорректном состоянии

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`bond_status != 1`

Шаблон сообщения:

Бонд {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от active negotiated

CertificateExpiresIn30Days#

До истечения сертификата осталось 30 дней.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`certificate_expired < 30`

Шаблон сообщения:

У сервиса {{ $labels.server_name }} на ПАК {{ $labels._pak_id }} до истечения сертификата осталось {{ $value }} дней

FanSpeedStateCritical#

Датчик скорости вентилятора информирует о критическом состоянии (IPMI).

Период: 3m (3 минуты).

Важность: critical

Категория: server.

Выражение PromQL:

ipmi_fan_speed_state == 2

Шаблон сообщения:

Датчик скорости вентилятора информирует о критическом состоянии

FanSpeedStateWarning#

Датчик скорости вентилятора находится в состоянии предупреждения (IPMI).

Период: 3m (3 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

ipmi_fan_speed_state == 1

Шаблон сообщения:

Датчик скорости вентилятора находится в состоянии предупреждения

InterfaceStatusAttachedNotCurrent#

Статус привязки физического интерфейса отличается от current attached.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`interface_status_attached != 1`

Шаблон сообщения:

Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от current attached

InterfaceStatusNotEnabled#

Физический интерфейс отключен.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`interface_status != 1`

Шаблон сообщения:

Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} отключен

NodeClockNotSynchronising#

Время на сервере не синхронизируется.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

(node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0)

Шаблон сообщения:

Время на сервере {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не синхронизируется

NodeClockSkew#

Системное время на узле рассинхронизировано.

Период: 10m (10 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

(node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0)

Шаблон сообщения:

Системное время на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} рассинхронизировано на более чем 0.05 секунд

NodeContextSwitchingHigh#

Часто происходит смена контекста на хосте.

Период: 0m (без ожидания).

Важность: warning.

Категория: server.

Выражение PromQL:

(rate(node_context_switches_total[15m]) / count (node_cpu_seconds_total{mode="idle"}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode="idle"})) > 2

Шаблон сообщения:

Частота смены контекста на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} активно растёт

NodeCpuHighIowait#

Iowat ЦП на узле превышает 10%.

Период: 0m (без ожидания).

Важность: warning.

Категория: server.

Выражение PromQL:

avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode="iowait"}[5m])) > 0.1

Шаблон сообщения:

Iowat ЦП достиг {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeCpuIsUnderutilized#

Слишком низкая загрузка на процессор на узле.

Период: 4d (4 суток).

Важность: warning.

Категория: server.

Выражение PromQL:

1 - (rate(node_cpu_seconds_total{mode="idle"}[30m])) < 0.2

Шаблон сообщения:

ЦП загружен {{$value | humanizePercentage }} последние 4 дня на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeCpuStealNoisyNeighbor#

Нехватка процессорного времени на узле.

Период: 0m (без ожидания).

Важность: warning.

Категория: server.

Выражение PromQL:

avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode="steal"}[5m])) > 0.1

Шаблон сообщения:

Не хватает {{$value | humanizePercentage }} процессорного времени на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}, ресурсы используются другими хостами/контейнерами.

NodeDiskIOErrWarning#

Наблюдаются ошибки ввода-вывода дискового устройства.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`rate(node_disk_iorequest_total[1m]) > 10`

Шаблон сообщения:

На дисковом устройстве {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} наблюдается рост ошибок ввода-вывода

NodeDiskWillFillIn24Hours#

Дисковое пространство на узле почти заполнено.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

(node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~"tmpfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0

Шаблон сообщения:

Дисковое пространство на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} почти заполнено и закончится в течение 24 часов

NodeExporterAvailabilityDown#

Компонент мониторинга node_exporter недоступен.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`up{job="node_exporter"} == 0`

Шаблон сообщения:

Отсутствуют данные node_exporter с узла {{ if $labels._vm_id }}{{ $labels._vm_id }}{{ else }}{{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }}. Проверьте доступность узла и компонента.

NodeFilesystemDeviceError#

Ошибка файловой системы на узле.

Период: 2m (2 минуты).

Важность: critical

Категория: server.

Выражение PromQL:

node_filesystem_device_error == 1

Шаблон сообщения:

Ошибка файловой системы на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeFilesystemSizeCritical#

На диске осталось менее 10% свободного места.

Период: 2m (2 минуты).

Важность: critical

Категория: server.

Выражение PromQL:

100-(sum(node_filesystem_avail_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\}) by (_node_id, _pak_id)) / (sum(node_filesystem_size_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\}) by (_node_id, _pak_id)) * 100 > 90

Шаблон сообщения:

Осталось {{$value humanizePercentage }} свободного дискового пространства на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeFilesystemSizeWarning#

На диске осталось менее 20% свободного места.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

100-(sum(node_filesystem_avail_bytes\{_target_type="NODE",fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))/(sum(node_filesystem_size_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))*100 > 80 and 100-(sum(node_filesystem_avail_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))/(sum(node_filesystem_size_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))*100 < 90

Шаблон сообщения:

Осталось {{$value humanizePercentage }} свободного дискового пространства на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeHighCpuLoad#

Большая нагрузка на CPU на узле.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!="idle"}[2m])) > 0.8

Шаблон сообщения:

ЦП загружен на {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeHighTransmitPacketError#

Высокая частота ошибок исходящих пакетов.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`node_network_transmit_errs_total_rate > 1000`

Шаблон сообщения:

Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.

NodeInodesWillFillIn24Hours#

Индексные дескрипторы на узле скоро заполнятся.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!="msdosfs"} == 0

Шаблон сообщения:

Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeInodesWillFillIn24Hours#

Индексные дескрипторы на узле скоро заполнятся.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!="msdosfs"} == 0

Шаблон сообщения:

Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeInterfaceChanges#

Замечены изменения в интерфейсе на сервере.

Период: 0s (без ожидания).

Важность: warning.

Категория: server.

Выражение PromQL:

`delta(node_network_info) > 0`

Шаблон сообщения:

Замечены изменения в интерфейсе {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}, возможно, он перешёл в статус down

NodeInterfaceMTUChanges#

Изменился MTU сетевой карты.

Период: 0s (без ожидания).

Важность: warning.

Категория: server.

Выражение PromQL:

`delta(node_network_mtu_bytes) > 0`

Шаблон сообщения:

Замечено изменение MTU сетевой карты {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}

NodeMemoryIsUnderutilized#

Недоиспользование RAM узла.

Период: 4d (4 суток).

Важность: info

Категория: server.

Выражение PromQL:

(1 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes ) < 0.2)

Шаблон сообщения:

Память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}} заполнена на {{$value humanizePercentage }} за последние 4 дня

NodeMemoryUnderMemoryPressure#

Осталось мало свободной RAM на узле.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

rate(node_vmstat_pgmajfault[1m]) > 1000

Шаблон сообщения:

Большая нагрузка на память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}. Слишком часто происходят отказы главной страницы

NodeNetworkInterfaceSaturated#

Интерфейс сети на узле перегружен.

Период: 1m (1 минута).

Важность: warning.

Категория: server.

Выражение PromQL:

(rate(node_network_receive_bytes_total{device!\~"^tap.\*\|^vnet.\*\|^veth.\*\|^tun.*"}[1m]) + rate(node_network_transmit_bytes_total{device!\~"^tap.\*\|^vnet.\*\|^veth.\*\|^tun.\*"}[1m])) / node_network_speed_bytes{device!\~"^tap.\*\|^vnet.\*\|^veth.\*\|^tun.\*"} > 0.8 < 10000

Шаблон сообщения:

Интерфейс сети устройства {{ $labels.device}} перегружен на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeNetworkReceiveErrors#

Рост сетевых ошибок на получение на хосте.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01

Шаблон сообщения:

В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на получение

NodeNetworkTransmitErrors#

Рост сетевых ошибок на передачу на хосте.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01

Шаблон сообщения:

В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на передачу

NodeOomKillDetected#

Out of Memory Killer начал работу.

Период: 0m (без ожидания).

Важность: warning.

Категория: server.

Выражение PromQL:

increase(node_vmstat_oom_kill[1m]) > 0

Шаблон сообщения:

Out of Memory Killer начал работу на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeOutOfInodes#

На диске на узле почти закончились свободные индексные дескрипторы.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!="msdosfs"} == 0

Шаблон сообщения:

Индексные дескрипторы заполнены на 90% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeOutOfMemory#

RAM узла почти заполнена, осталось менее 20% свободного места.

Период: 2m (2 минуты).

Важность: critical

Категория: server.

Выражение PromQL:

node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1

Шаблон сообщения:

Осталось {{$value | humanizePercentage }} свободной памяти узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeOutOfMemoryWarning#

RAM узла почти заполнена, осталось менее 20% свободного места.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.2 and node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes > 0.1

Шаблон сообщения:

Осталось {{$value humanizePercentage }} свободной RAM на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeSwapIsFillingUp#

SWAP хоста заполняется.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

(1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) > 0.8

Шаблон сообщения:

SWAP хоста заполнен на {{$value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeUnusualDiskIo#

Необычная активность IO на диске хоста.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

rate(node_disk_io_time_seconds_total[1m]) > 0.5

Шаблон сообщения:

Время, проведённое в IO, достигло {{ $value }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeUnusualDiskReadLatency#

Необычная задержка при чтении файлов с диска на узле.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0

Шаблон сообщения:

Задержка при чтении файлов с диска выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeUnusualDiskReadRate#

Необычная активность при чтении диска (более 50 МБ/с).

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50

Шаблон сообщения:

Необычная активность при чтении диска на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeUnusualDiskWriteLatency#

Необычная задержка при записи файлов на диск на узле.

Период: 2m (2 минуты).

Важность: warning.

Категория: server.

Выражение PromQL:

rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0

Шаблон сообщения:

Задержка при записи файлов на диск выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeUnusualDiskWriteRate#

Необычная активность при записи на диск (более 50 МБ/с).

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50

Шаблон сообщения:

Необычная активность при записи на диск на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

NodeUnusualNetworkThroughputIn#

Сеть начала резко получать более 100 мб/с

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;
  • server.

Выражение PromQL:

sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100

Шаблон сообщения:

Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (входящие данные)

NodeUnusualNetworkThroughputOut#

Необычная активность при передаче данных по сети (более 100 мб/с).

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;
  • server.

Выражение PromQL:

sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100

Шаблон сообщения:

Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (исходящие данные)

SnmpAnomalyTraffic#

Замечено аномальное увеличение трафика.

Период: 12m (12 минут).

Важность: info

Категория: network.

Выражение PromQL:

rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w))

Шаблон сообщения:

Замечено аномальное увеличение трафика коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}

SnmpDataNotReceived#

Не поступают данные с устройства SNMP.

Период: 5m (5 минут).

Важность: critical

Категория: network.

Выражение PromQL:

up{job=~"snmp.*"} != 1

Шаблон сообщения:

Не удалось собрать данные с SNMP-устройства, ПАК {{ $labels._pak_id }}

SnmpHighInComingTraffic#

Входящий трафик порта коммутатора приближается к пороговому значению.

Период: 6m (6 минут).

Важность: info

Категория: network.

Выражение PromQL:

(rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0

Шаблон сообщения:

Входящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности

SnmpHighOutComingTraffic#

Исходящий трафик порта коммутатора приближается к пороговому значению.

Период: 6m (6 минут).

Важность: info

Категория: network.

Выражение PromQL:

(rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0

Шаблон сообщения:

Исходящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности

SnmpIncreaseDiscardsInComingPacket#

Рост количества отклонённых пакетов исходящего трафика.

Период: 6m (6 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

rate(ifOutDiscards[4m]) > 10

Шаблон сообщения:

Количество отклонённых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10

SnmpIncreaseDiscardsOutComingPacket#

Рост количества отклонённых пакетов входящего трафика.

Период: 6m (6 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

rate(ifInDiscards[4m]) > 10

Шаблон сообщения:

Количество отклонённых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10

SnmpIncreaseInComingPacket#

Большое количество передаваемых пакетов на входящий трафик.

Период: 6m (6 минут).

Важность: info

Категория: network.

Выражение PromQL:

rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000

Шаблон сообщения:

Зафиксирован рост числа передаваемых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}

SnmpIncreaseInComingTrafficError#

Рост количества ошибок на входящий трафик.

Период: 6m (6 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

rate(ifInErrors[4m]) > 10

Шаблон сообщения:

Количество ошибок на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10

SnmpIncreaseOutComingPacket#

Большое количество передаваемых пакетов на исходящий трафик.

Период: 6m (6 минут).

Важность: info

Категория: network.

Выражение PromQL:

rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000

Шаблон сообщения:

Зафиксирован рост числа передаваемых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}

SnmpIncreaseOutComingTrafficError#

Рост количества ошибок на исходящий трафик.

Период: 6m (6 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

rate(ifOutErrors[4m]) > 10

Шаблон сообщения:

Количество ошибок на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10

SnmpLongSysUpTime#

SNMP-устройство работает без перезапуска более 4 лет.

Период: 2m (2 минуты).

Важность: warning.

Категория: network.

Выражение PromQL:

sysUpTime > 126144000

Шаблон сообщения:

SNMP-устройство {{ $labels._comm_id}} работает без перезапуска более 4 лет, ПАК {{ $labels._pak_id }}

SnmpPortChangedState#

Порт изменил своё состояние.

Период: 2m (2 минуты).

Важность: critical

Категория: network.

Выражение PromQL:

delta(ifOperStatus[15m]) != 0

Шаблон сообщения:

В последние 15 минут порт {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} изменил своё состояние. Возможно, он выключен или перезапущен

VisionPlagentErrors#

Имеются ошибки Plagent.

Период: 0m (без ожидания).

Важность: warning.

Категория: utility_service.

Выражение PromQL:

`plagent_plugin_error_count > 0`

Шаблон сообщения:

Имеется {{ $value }} ошибок Plagent на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

VmagentAvailabilityDown#

Компонент мониторинга vmagent недоступен.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

`vmagent_availability_status == 0`

Шаблон сообщения:

Отсутствуют данные node_exporter с узла {{ if $labels._vm_id }}{{ $labels._vm_id }}{{ else }}{{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }}. Проверьте доступность узла и компонента.