Общая информация о правилах оповещения Визион#
[Правило оповещения] является условием (определяется PromQL-выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .
В поле Имя в списке уведомлений попадает значение из поля Имя в правиле оповещения.
Период определяет интервал времени, в течение которого выражение, определяющее правило оповещения, остается истинным, прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.
Важность определяет значимость события для пользователя. Важность может принимать следующие значения (в порядке убывания):
- critical — максимальная важность;
- warning — важное событие;
- info — информационное сообщение.
Шаблон влияет на форматирование сообщения, отправляемого пользователю на электронную почту.
Алерты, генерируемые на основе правил оповещения, отображаются в списке уведомлений в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведён ниже.
Универсальные правила#
Данные правила оповещения могут применяться вне зависимости от типа машины.
BondStatusNotActiveNegotiated#
Бонд узла находится в некорректном состоянии
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`bond_status != 1`
Шаблон сообщения:
Бонд {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от active negotiated
CertificateExpiresIn30Days#
До истечения сертификата осталось 30 дней.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`certificate_expired < 30`
Шаблон сообщения:
У сервиса {{ $labels.server_name }} на ПАК {{ $labels._pak_id }} до истечения сертификата осталось {{ $value }} дней
FanSpeedStateCritical#
Датчик скорости вентилятора информирует о критическом состоянии (IPMI).
Период: 3m
(3 минуты).
Важность: critical
Категория: server
.
Выражение PromQL:
ipmi_fan_speed_state == 2
Шаблон сообщения:
Датчик скорости вентилятора информирует о критическом состоянии
FanSpeedStateWarning#
Датчик скорости вентилятора находится в состоянии предупреждения (IPMI).
Период: 3m
(3 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
ipmi_fan_speed_state == 1
Шаблон сообщения:
Датчик скорости вентилятора находится в состоянии предупреждения
InterfaceStatusAttachedNotCurrent#
Статус привязки физического интерфейса отличается от current attached.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`interface_status_attached != 1`
Шаблон сообщения:
Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от current attached
InterfaceStatusNotEnabled#
Физический интерфейс отключен.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`interface_status != 1`
Шаблон сообщения:
Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} отключен
NodeClockNotSynchronising#
Время на сервере не синхронизируется.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
(node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0)
Шаблон сообщения:
Время на сервере {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не синхронизируется
NodeClockSkew#
Системное время на узле рассинхронизировано.
Период: 10m
(10 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
(node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0)
Шаблон сообщения:
Системное время на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} рассинхронизировано на более чем 0.05 секунд
NodeContextSwitchingHigh#
Часто происходит смена контекста на хосте.
Период: 0m
(без ожидания).
Важность: warning.
Категория: server
.
Выражение PromQL:
(rate(node_context_switches_total[15m]) / count (node_cpu_seconds_total{mode="idle"}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode="idle"})) > 2
Шаблон сообщения:
Частота смены контекста на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} активно растёт
NodeCpuHighIowait#
Iowat ЦП на узле превышает 10%.
Период: 0m
(без ожидания).
Важность: warning.
Категория: server
.
Выражение PromQL:
avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode="iowait"}[5m])) > 0.1
Шаблон сообщения:
Iowat ЦП достиг {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeCpuIsUnderutilized#
Слишком низкая загрузка на процессор на узле.
Период: 4d
(4 суток).
Важность: warning.
Категория: server
.
Выражение PromQL:
1 - (rate(node_cpu_seconds_total{mode="idle"}[30m])) < 0.2
Шаблон сообщения:
ЦП загружен {{$value | humanizePercentage }} последние 4 дня на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeCpuStealNoisyNeighbor#
Нехватка процессорного времени на узле.
Период: 0m
(без ожидания).
Важность: warning.
Категория: server
.
Выражение PromQL:
avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode="steal"}[5m])) > 0.1
Шаблон сообщения:
Не хватает {{$value | humanizePercentage }} процессорного времени на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}, ресурсы используются другими хостами/контейнерами.
NodeDiskIOErrWarning#
Наблюдаются ошибки ввода-вывода дискового устройства.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`rate(node_disk_iorequest_total[1m]) > 10`
Шаблон сообщения:
На дисковом устройстве {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} наблюдается рост ошибок ввода-вывода
NodeDiskWillFillIn24Hours#
Дисковое пространство на узле почти заполнено.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
(node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~"tmpfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0
Шаблон сообщения:
Дисковое пространство на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} почти заполнено и закончится в течение 24 часов
NodeExporterAvailabilityDown#
Компонент мониторинга node_exporter
недоступен.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`up{job="node_exporter"} == 0`
Шаблон сообщения:
Отсутствуют данные node_exporter с узла {{ if $labels._vm_id }}{{ $labels._vm_id }}{{ else }}{{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }}. Проверьте доступность узла и компонента.
NodeFilesystemDeviceError#
Ошибка файловой системы на узле.
Период: 2m
(2 минуты).
Важность: critical
Категория: server
.
Выражение PromQL:
node_filesystem_device_error == 1
Шаблон сообщения:
Ошибка файловой системы на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeFilesystemSizeCritical#
На диске осталось менее 10% свободного места.
Период: 2m
(2 минуты).
Важность: critical
Категория: server
.
Выражение PromQL:
100-(sum(node_filesystem_avail_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\}) by (_node_id, _pak_id)) / (sum(node_filesystem_size_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\}) by (_node_id, _pak_id)) * 100 > 90
Шаблон сообщения:
Осталось {{$value humanizePercentage }} свободного дискового пространства на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeFilesystemSizeWarning#
На диске осталось менее 20% свободного места.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
100-(sum(node_filesystem_avail_bytes\{_target_type="NODE",fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))/(sum(node_filesystem_size_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))*100 > 80 and 100-(sum(node_filesystem_avail_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))/(sum(node_filesystem_size_bytes\{_target_type="NODE", fstype=\~"ext4 | vfat | xfs"\})by(_node_id, _pak_id))*100 < 90
Шаблон сообщения:
Осталось {{$value humanizePercentage }} свободного дискового пространства на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeHighCpuLoad#
Большая нагрузка на CPU на узле.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!="idle"}[2m])) > 0.8
Шаблон сообщения:
ЦП загружен на {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeHighTransmitPacketError#
Высокая частота ошибок исходящих пакетов.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`node_network_transmit_errs_total_rate > 1000`
Шаблон сообщения:
Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.
NodeInodesWillFillIn24Hours#
Индексные дескрипторы на узле скоро заполнятся.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!="msdosfs"} == 0
Шаблон сообщения:
Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeInodesWillFillIn24Hours#
Индексные дескрипторы на узле скоро заполнятся.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!="msdosfs"} == 0
Шаблон сообщения:
Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeInterfaceChanges#
Замечены изменения в интерфейсе на сервере.
Период: 0s
(без ожидания).
Важность: warning.
Категория: server
.
Выражение PromQL:
`delta(node_network_info) > 0`
Шаблон сообщения:
Замечены изменения в интерфейсе {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}, возможно, он перешёл в статус down
NodeInterfaceMTUChanges#
Изменился MTU сетевой карты.
Период: 0s
(без ожидания).
Важность: warning.
Категория: server
.
Выражение PromQL:
`delta(node_network_mtu_bytes) > 0`
Шаблон сообщения:
Замечено изменение MTU сетевой карты {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}
NodeMemoryIsUnderutilized#
Недоиспользование RAM узла.
Период: 4d
(4 суток).
Важность: info
Категория: server
.
Выражение PromQL:
(1 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes ) < 0.2)
Шаблон сообщения:
Память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}} заполнена на {{$value humanizePercentage }} за последние 4 дня
NodeMemoryUnderMemoryPressure#
Осталось мало свободной RAM на узле.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
rate(node_vmstat_pgmajfault[1m]) > 1000
Шаблон сообщения:
Большая нагрузка на память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}. Слишком часто происходят отказы главной страницы
NodeNetworkInterfaceSaturated#
Интерфейс сети на узле перегружен.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
.
Выражение PromQL:
(rate(node_network_receive_bytes_total{device!\~"^tap.\*\|^vnet.\*\|^veth.\*\|^tun.*"}[1m]) + rate(node_network_transmit_bytes_total{device!\~"^tap.\*\|^vnet.\*\|^veth.\*\|^tun.\*"}[1m])) / node_network_speed_bytes{device!\~"^tap.\*\|^vnet.\*\|^veth.\*\|^tun.\*"} > 0.8 < 10000
Шаблон сообщения:
Интерфейс сети устройства {{ $labels.device}} перегружен на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeNetworkReceiveErrors#
Рост сетевых ошибок на получение на хосте.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01
Шаблон сообщения:
В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на получение
NodeNetworkTransmitErrors#
Рост сетевых ошибок на передачу на хосте.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01
Шаблон сообщения:
В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на передачу
NodeOomKillDetected#
Out of Memory Killer начал работу.
Период: 0m
(без ожидания).
Важность: warning.
Категория: server
.
Выражение PromQL:
increase(node_vmstat_oom_kill[1m]) > 0
Шаблон сообщения:
Out of Memory Killer начал работу на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOutOfInodes#
На диске на узле почти закончились свободные индексные дескрипторы.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!="msdosfs"} == 0
Шаблон сообщения:
Индексные дескрипторы заполнены на 90% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOutOfMemory#
RAM узла почти заполнена, осталось менее 20% свободного места.
Период: 2m
(2 минуты).
Важность: critical
Категория: server
.
Выражение PromQL:
node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1
Шаблон сообщения:
Осталось {{$value | humanizePercentage }} свободной памяти узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOutOfMemoryWarning#
RAM узла почти заполнена, осталось менее 20% свободного места.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.2 and node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes > 0.1
Шаблон сообщения:
Осталось {{$value humanizePercentage }} свободной RAM на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeSwapIsFillingUp#
SWAP хоста заполняется.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
(1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) > 0.8
Шаблон сообщения:
SWAP хоста заполнен на {{$value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskIo#
Необычная активность IO на диске хоста.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
rate(node_disk_io_time_seconds_total[1m]) > 0.5
Шаблон сообщения:
Время, проведённое в IO, достигло {{ $value }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskReadLatency#
Необычная задержка при чтении файлов с диска на узле.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0
Шаблон сообщения:
Задержка при чтении файлов с диска выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskReadRate#
Необычная активность при чтении диска (более 50 МБ/с).
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50
Шаблон сообщения:
Необычная активность при чтении диска на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskWriteLatency#
Необычная задержка при записи файлов на диск на узле.
Период: 2m
(2 минуты).
Важность: warning.
Категория: server
.
Выражение PromQL:
rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0
Шаблон сообщения:
Задержка при записи файлов на диск выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskWriteRate#
Необычная активность при записи на диск (более 50 МБ/с).
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50
Шаблон сообщения:
Необычная активность при записи на диск на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualNetworkThroughputIn#
Сеть начала резко получать более 100 мб/с
Период: 5m
(5 минут).
Важность: warning.
Категории:
network
;server
.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100
Шаблон сообщения:
Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (входящие данные)
NodeUnusualNetworkThroughputOut#
Необычная активность при передаче данных по сети (более 100 мб/с).
Период: 5m
(5 минут).
Важность: warning.
Категории:
network
;server
.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100
Шаблон сообщения:
Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (исходящие данные)
SnmpAnomalyTraffic#
Замечено аномальное увеличение трафика.
Период: 12m
(12 минут).
Важность: info
Категория: network
.
Выражение PromQL:
rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w))
Шаблон сообщения:
Замечено аномальное увеличение трафика коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}
SnmpDataNotReceived#
Не поступают данные с устройства SNMP.
Период: 5m
(5 минут).
Важность: critical
Категория: network
.
Выражение PromQL:
up{job=~"snmp.*"} != 1
Шаблон сообщения:
Не удалось собрать данные с SNMP-устройства, ПАК {{ $labels._pak_id }}
SnmpHighInComingTraffic#
Входящий трафик порта коммутатора приближается к пороговому значению.
Период: 6m
(6 минут).
Важность: info
Категория: network
.
Выражение PromQL:
(rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0
Шаблон сообщения:
Входящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности
SnmpHighOutComingTraffic#
Исходящий трафик порта коммутатора приближается к пороговому значению.
Период: 6m
(6 минут).
Важность: info
Категория: network
.
Выражение PromQL:
(rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0
Шаблон сообщения:
Исходящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности
SnmpIncreaseDiscardsInComingPacket#
Рост количества отклонённых пакетов исходящего трафика.
Период: 6m
(6 минут).
Важность: warning.
Категория: network
.
Выражение PromQL:
rate(ifOutDiscards[4m]) > 10
Шаблон сообщения:
Количество отклонённых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpIncreaseDiscardsOutComingPacket#
Рост количества отклонённых пакетов входящего трафика.
Период: 6m
(6 минут).
Важность: warning.
Категория: network
.
Выражение PromQL:
rate(ifInDiscards[4m]) > 10
Шаблон сообщения:
Количество отклонённых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpIncreaseInComingPacket#
Большое количество передаваемых пакетов на входящий трафик.
Период: 6m
(6 минут).
Важность: info
Категория: network
.
Выражение PromQL:
rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000
Шаблон сообщения:
Зафиксирован рост числа передаваемых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}
SnmpIncreaseInComingTrafficError#
Рост количества ошибок на входящий трафик.
Период: 6m
(6 минут).
Важность: warning.
Категория: network
.
Выражение PromQL:
rate(ifInErrors[4m]) > 10
Шаблон сообщения:
Количество ошибок на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpIncreaseOutComingPacket#
Большое количество передаваемых пакетов на исходящий трафик.
Период: 6m
(6 минут).
Важность: info
Категория: network
.
Выражение PromQL:
rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000
Шаблон сообщения:
Зафиксирован рост числа передаваемых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}
SnmpIncreaseOutComingTrafficError#
Рост количества ошибок на исходящий трафик.
Период: 6m
(6 минут).
Важность: warning.
Категория: network
.
Выражение PromQL:
rate(ifOutErrors[4m]) > 10
Шаблон сообщения:
Количество ошибок на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpLongSysUpTime#
SNMP-устройство работает без перезапуска более 4 лет.
Период: 2m
(2 минуты).
Важность: warning.
Категория: network
.
Выражение PromQL:
sysUpTime > 126144000
Шаблон сообщения:
SNMP-устройство {{ $labels._comm_id}} работает без перезапуска более 4 лет, ПАК {{ $labels._pak_id }}
SnmpPortChangedState#
Порт изменил своё состояние.
Период: 2m
(2 минуты).
Важность: critical
Категория: network
.
Выражение PromQL:
delta(ifOperStatus[15m]) != 0
Шаблон сообщения:
В последние 15 минут порт {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} изменил своё состояние. Возможно, он выключен или перезапущен
VisionPlagentErrors#
Имеются ошибки Plagent.
Период: 0m
(без ожидания).
Важность: warning.
Категория: utility_service
.
Выражение PromQL:
`plagent_plugin_error_count > 0`
Шаблон сообщения:
Имеется {{ $value }} ошибок Plagent на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
VmagentAvailabilityDown#
Компонент мониторинга vmagent недоступен.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
`vmagent_availability_status == 0`
Шаблон сообщения:
Отсутствуют данные node_exporter с узла {{ if $labels._vm_id }}{{ $labels._vm_id }}{{ else }}{{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }}. Проверьте доступность узла и компонента.