Правила оповещения Визион

1. Общая информация о правилах оповещения Визион#

Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .

В поле “Имя” в списке уведомлений попадает значение из поля “Имя” в Правиле Оповещения.

Период определяет интервал времени, в течение которого выражение, определяющее правило оповещения, остается истинным, прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.

Важность определяет значимость события для пользователя. Важность может принимать следующие значения:

critical (максимальная важность)
info
warning

Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.

Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.

2. Список правил оповещения, входящих в поставку Визион#

2.1 Универсальные правила#

Данные правила оповещения могут применяться вне зависимости от типа машины.

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
NodeOutOfMemory	Память узла почти заполнена	node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1	2m	warning	Осталось {{$value	humanizePercentage }} свободной памяти узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeMemoryUnderMemoryPressure	Системе не хватает свободной памяти на узле	rate(node_vmstat_pgmajfault[1m]) > 1000	2m	warning	Большая нагрузка на память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}. Слишком часто происходят отказы главной страницы	server
NodeMemoryIsUnderutilized	Недоиспользование памяти узла	(1 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes ) < 0.2)	4d	info	Память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}} заполнена на {{$value	humanizePercentage }} за последние 4 дня
NodeUnusualNetworkThroughputIn	Сеть начала резко получать более 100 мб/с	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100	5m	warning	Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (входящие данные)	server, network
NodeUnusualNetworkThroughputOut	Сеть начала резко отдавать более 100 мб/с	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100	5m	warning	Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (исходящие данные)	server, network
NodeUnusualDiskReadRate	Диск начал резко читать более 50 мб/с	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50	5m	warning	Необычная активность при чтении диска на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeUnusualDiskWriteRate	Диск начал резко писать более 50 мб/с	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50	5m	warning	Необычная активность при записи на диск на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeDiskWillFillIn24Hours	Дисковое пространство на узле почти заполнено	(node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0	2m	warning	Дисковое пространство на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} почти заполнено и закончится в течение 24 часов	server
NodeOutOfInodes	На диске на узле почти закончились свободные индексные дескрипторы	node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0	2m	warning	Индексные дескрипторы заполнены на 90% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeFilesystemDeviceError	Ошибка файловой системы на узле	node_filesystem_device_error == 1	2m	critical	Ошибка файловой системы на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeInodesWillFillIn24Hours	Индексные дескрипторы на узле скоро заполнятся	node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0	2m	warning	Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeUnusualDiskReadLatency	Необычная задержка при чтении файлов с диска на узле	rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0	2m	warning	Задержка при чтении файлов с диска выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeUnusualDiskWriteLatency	Необычная задержка при записи файлов на диск на узле	rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0	2m	warning	Задержка при записи файлов на диск выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeHighCpuLoad	Большая нагрузка на ЦП на узле	avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!=“idle”}[2m])) > 0.8	2m	warning	ЦП загружен на {{ $value	humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeCpuIsUnderutilized	Слишком низкая загрузка на процессор на узле	1 - (rate(node_cpu_seconds_total{mode=“idle”}[30m])) < 0.2	4d	warning	ЦП загружен {{$value	humanizePercentage }} последние 4 дня на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeCpuStealNoisyNeighbor	Нехватка процессорного времени на узле	avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) > 0.1	0m	warning	Не хватает {{$value	humanizePercentage }} процессорного времени на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}, ресурсы используются другими хостами/контейнерами.
NodeCpuHighIowait	Iowat ЦП на узле превышает 10%	avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) > 0.1	0m	warning	Iowat ЦП достиг {{ $value	humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskIo	Необычная активность IO на диске хоста	rate(node_disk_io_time_seconds_total[1m]) > 0.5	5m	warning	Время, проведённое в IO, достигло {{ $value }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeContextSwitchingHigh	Часто происходит смена контекста на хосте	(rate(node_context_switches_total[15m]) / count (node_cpu_seconds_total{mode=“idle”}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=“idle”})) > 2	0m	warning	Частота смены контекста на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} активно растёт	server
NodeSwapIsFillingUp	SWAP хоста заполняется	(1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) > 0.8	2m	warning	SWAP хоста заполнен на {{$value	humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOomKillDetected	Out of Memory Killer начал работу	increase(node_vmstat_oom_kill[1m]) > 0	0m	warning	Out of Memory Killer начал работу на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeNetworkReceiveErrors	Рост сетевых ошибок на получение на хосте	rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01	2m	warning	В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на получение	server
NodeNetworkTransmitErrors	Рост сетевых ошибок на передачу на хосте	rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01	2m	warning	В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на передачу	server
NodeNetworkInterfaceSaturated	Интерфейс сети на узле перегружен	(rate(node_network_receive_bytes_total{device!~"^tap.*	^vnet.*	^veth.*	^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.	^vnet.*
NodeClockSkew	Системное время на узле рассинхронизировано	(node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0)	10m	warning	Системное время на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} рассинхронизировано на более чем 0.05 секунд	server
NodeClockNotSynchronising	Время на сервере не синхронизируется	(node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0)	2m	warning	Время на сервере {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не синхронизируется	server
SnmpDataNotReceived	Не поступают данные с устройства SNMP	up{job=~“snmp.*”} != 1	5m	critical	Не удалось собрать данные с SNMP-устройства, ПАК {{ $labels._pak_id }}	network
SnmpLongSysUpTime	SNMP-устройство работает без перезапуска более 4 лет	sysUpTime > 126144000	2m	warning	SNMP-устройство {{ $labels._comm_id}} работает без перезапуска более 4 лет, ПАК {{ $labels._pak_id }}	network
SnmpPortChangedState	Порт изменил своё состояние	delta(ifOperStatus[15m]) != 0	2m	critical	В последние 15 минут порт {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} изменил своё состояние. Возможно, он выключен или перезапущен	network
SnmpHighInComingTraffic	Входящий трафик порта коммутатора приближается к пороговому значению	(rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0	6m	info	Входящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности	network
SnmpHighOutComingTraffic	Исходящий трафик порта коммутатора приближается к пороговому значению	(rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0	6m	info	Исходящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности	network
SnmpAnomalyTraffic	Замечено аномальное увеличение трафика	rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w))	12m	info	Замечено аномальное увеличение трафика коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}	network
SnmpIncreaseInComingTrafficError	Рост количества ошибок на входящий трафик	rate(ifInErrors[4m]) > 10	6m	warning	Количество ошибок на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10	network
SnmpIncreaseOutComingTrafficError	Рост количества ошибок на исходящий трафик	rate(ifOutErrors[4m]) > 10	6m	warning	Количество ошибок на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10	network
SnmpIncreaseDiscardsInComingPacket	Рост количества отклонённых пакетов на исходящий трафик	rate(ifOutDiscards[4m]) > 10	6m	warning	Количество отклонённых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10	network
SnmpIncreaseDiscardsOutComingPacket	Рост количества отклонённых пакетов на входящий трафик	rate(ifInDiscards[4m]) > 10	6m	warning	Количество отклонённых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10	network
SnmpIncreaseInComingPacket	Большое количество передаваемых пакетов на входящий трафик	rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000	6m	info	Зафиксирован рост числа передаваемых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}	network
SnmpIncreaseOutComingPacket	Большое количество передаваемых пакетов на исходящий трафик	rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000	6m	info	Зафиксирован рост числа передаваемых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}	network
FanSpeedStateWarning	Датчик скорости вентилятора находится в состоянии предупреждения (IPMI)	ipmi_fan_speed_state == 1	3m	warning	Датчик скорости вентилятора находится в состоянии предупреждения	server
FanSpeedStateCritical	Датчик скорости вентилятора информирует о критическом состоянии (IPMI)	ipmi_fan_speed_state == 2	3m	critical	Датчик скорости вентилятора информирует о критическом состоянии	server
CertificateExpiresIn30Days	До истечения сертификата осталось 30 дней	`certificate_expired < 30`	5m	warning	У сервиса {{ $labels.server_name }} на ПАК {{ $labels._pak_id }} до истечения сертификата осталось {{ $value }} дней	func_service
BondStatusNotActiveNegotiated	Бонд узла находится в некорректном состоянии	`bond_status != 1`	5m	warning	Бонд {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от active negotiated	server
InterfaceStatusAttachedNotCurrent	Статус привязки физического интерфейса отличается от current attached	`interface_status_attached != 1`	5m	warning	Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от current attached	server
InterfaceStatusNotEnabled	Физический интерфейс отключен	`interface_status != 1`	5m	warning	Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} отключен	server
NodeDiskIOErrWarning	Наблюдаются ошибки ввода-вывода дискового устройства	`rate(node_disk_iorequest_total[1m]) > 10`	5m	warning	На дисковом устройстве {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} наблюдается рост ошибок ввода-вывода	server
NodeInterfaceChanges	Замечены изменения в интерфейсе на сервере	`delta(node_network_info) > 0`	0s	warning	Замечены изменения в интерфейсе {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}, возможно, он перешёл в статус down	server
NodeInterfaceMTUChanges	Изменился MTU сетевой карты	`delta(node_network_mtu_bytes) > 0`	0s	warning	Замечено изменение MTU сетевой карты {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}	server
NodeHighTransmitPacketError	Высокая частота ошибок исходящих пакетов	`node_network_transmit_errs_total_rate > 1000`	5m	warning	Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.	func_service

2.2 МБД.КХ#

МБД.КХ предназначена для создания высокопроизводительных аналитических витрин с реляционным доступом на базе технологии ClickHouse (Arenadata QuickMarts).

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
ClickHouseServerProcessInfo	Отсутствует процесс сервера ClickHouse (МБД.КХ)	namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0	0m	info	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} отсутствует процесс сервера ClickHouse	func_service
ClickHouseServerProcessWarning	Процесс сервера ClickHouse отсутствует более 5 минут (МБД.КХ)	namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0	5m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} процесс сервера ClickHouse отсутствует более 5 минут	func_service
ClickHouseSimultaneousQueriesWarning	Количество одновременных запросов к БД ClickHouse достигло значения 90 (МБД.КХ)	clickhouse_simultaneous_queries > 90	5m	warning	Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 90	func_service
ClickHouseSimultaneousQueriesCritical	Количество одновременных запросов к БД ClickHouse достигло значения 100 (МБД.КХ)	clickhouse_simultaneous_queries >= 100	30s	critical	Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 100	func_service
ClickHouseReplicationStuckTasks	Имеются зависшие задачи репликации ClickHouse (МБД.КХ)	clickhouse_replication_stuck_task_count > 0	5m	warning	Имеются зависшие задачи репликации ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
ClickHouseZooKeeperStatus	ZooKeeper ClickHouse недоступен (МБД.КХ)	clickhouse_zookeeper_status == 0	0m	critical	ZooKeeper ClickHouse недоступен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
ClickHouseZooKeeperResponse	Время ответа ZooKeeper превысило 1000 микросекунд (МБД.КХ)	clickhouse_zookeeper_response_microseconds > 0	5m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} время ответа ZooKeeper превысило 1000 микросекунд	func_service
ClickHouseZooKeeperOutstandingRequest	Количество ожидающих запросов ZooKeeper превысило 50 (МБД.КХ)	clickhouse_zookeeper_outstanding_request_count > 50	5m	warning	Количество ожидающих запросов ZooKeeper на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} превысило 50	func_service
ClickHouseReplicasMaxDelay	Превышение максимальной разницы в сек. между свежей репл. частью и свежей частью данных (МБД.КХ)	clickhouse_replicas_max_delay_seconds > 60	5m	warning	Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд. Узел {{ $labels._node_id}}, ПАК {{$labels._pak_id}}	func_service
ClickHouseServerRestarted	ClickHouse был перезапущен (МБД.КХ)	clickhouse_uptime < clickhouse_uptime offset 1m	0m	warning	ClickHouse был перезапущен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service

Для мониторинга доступности узлов ClickHouse используется blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Пользователю предлагается настроить его самостоятельно по данному шаблону:

Название правила	PromQL выражение	Период	Важность	Шаблон	Категории
Отсутствует связь с сервером ClickHouse	probe_success{instance=“X:8123”} == 0	0m	info	Отсутствует связь с сервером ClickHouse	func_service
Связь с сервером ClickHouse отсутствует более 5 минут	probe_success{instance=“X:8123”} == 0	5m	warning	Связь с сервером ClickHouse отсутствует более 5 минут	func_service
Отсутствует связь с сервером реплики ClickHouse	probe_success{instance=“X:8123/replicas_status”} == 0	5m	warning	Отсутствует связь с сервером реплики ClickHouse	func_service

2.3 МБД.Г#

МБД.Г предназначена для параллельной обработки и распределённого хранения структурированных данных, специально предназначенный для работы СУБД Arenadata.DB в высоконагруженных системах.

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
GreenplumHighConnectionsRatio	Количество текущих соединений Greenplum достигло 80% от возможного (МБД.Г)	greenplum_current_connections_ratio > 80 and greenplum_current_connections_ratio < 90	30m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество текущих соединений Greenplum достигло 80% от возможного	func_service
GreenplumCriticalConnectionsRatio	Количество текущих соединений Greenplum достигло 90% от возможного (МБД.Г)	greenplum_current_connections_ratio > 90	30m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество текущих соединений Greenplum достигло 90% от возможного	func_service
GreenplumHighSpillSize	Общий объем Spill-файлов Greenplum превысил 30 GB (МБД.Г)	greenplum_spill_size_total > 30 and greenplum_spill_size_total < 50	30m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} общий объем Spill-файлов Greenplum превысил 30 GB	func_service
GreenplumCriticalSpillSize	Общий объем Spill-файлов Greenplum превысил 50 GB (МБД.Г)	greenplum_spill_size_total > 50	30m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} общий объем Spill-файлов Greenplum превысил 50 GB	func_service
GreenplumMasterDown	Ведущий узел Greenplum находится в отключенном состоянии (МБД.Г)	greenplum_master_up == 0	0m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} ведущий узел Greenplum находится в отключенном состоянии	func_service
GreenplumPrimarySegmentsDown	Имеются primary-сегменты Greenplum в статусе down (МБД.Г)	greenplum_primary_segments_down_count > 0	0m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} один и более primary-сегментов Greenplum находятся в статусе down	func_service
GreenplumMirrorSegmentsDown	Имеются mirror-сегменты Greenplum в статусе down (МБД.Г)	greenplum_mirror_segments_down_count > 0	0m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} один и более mirror-сегментов Greenplum находятся в статусе down	func_service
GreenplumPanicResetErrors	Имеются ошибки типа “Panic” и “Reset” в pg_log Greenplum (МБД.Г)	count_over_time(greenplum_pg_log_reset_panic== 1[1h]) > 1	0m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} за последний час в pg_log были зафиксированы ошибки типа Panic и Reset	func_service
GreenplumLongActiveSessions	Имеются подключения к Greenplum, находящиеся в активном состоянии более часа (МБД.Г)	greenplum_active_session_for_hour_count > 0	5m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеются активные подключения к Greenplum, находящиеся в этом статусе более часа	func_service
GreenplumLongSessions	Имеются подключения к Greenplum, находящиеся в своём состоянии более часа (МБД.Г)	greenplum_session_for_hour_count > 0	5m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеются подключения к Greenplum, не менявшие свой статус более часа	func_service
GreenplumHighLocksCount	Имеется больше 10 блокировок в БД Greenplum (МБД.Г)	greenplum_locks_count > 10 and greenplum_locks_count < 20	0m	warning	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеется больше 10 блокировок в БД Greenplum	func_service
GreenplumCriticalLocksCount	Имеется больше 20 блокировок в БД Greenplum (МБД.Г)	greenplum_locks_count > 20	0m	critical	На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеется больше 20 блокировок в БД Greenplum	func_service
GreenplumHighPartitionRatio	Разделы Greenplum занимают более 80% доступного пространства (МБД.Г)	greenplum_partition_ratio > 80 and greenplum_partition_ratio < 90	30m	warning	Разделы Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} занимают {{ $value }}% доступного пространства	func_service
GreenplumCriticalPartitionRatio	Разделы Greenplum занимают более 90% доступного пространства (МБД.Г)	greenplum_partition_ratio > 90	30m	critical	Разделы Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} занимают {{ $value }}% доступного пространства	func_service
GreenplumWrongClusterStatus	Greenplum не находится в обычном одиночном или многопользовательском режиме (МБД.Г)	greenplum_cluster_status != 1 and greenplum_cluster_status != 0	0m	critical	Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} находится в режиме {{ $value }}	func_service
GreenplumOldLogCount	Имеются файлы pg_log старше 3 месяцев (МБД.Г)	greenplum_pg_log_three_month_old_count > 0	0m	warning	Есть файлы pg_log Greenplum старше 3 месяцев на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
GreenplumVeryOldLogCount	Количество записей с уровнем “ERROR” и “FATAL” в pg_log за текущий день превысило 100 (МБД.Г)	greenplum_pg_log_errors_fatal > 100 and greenplum_pg_log_errors_fatal < 300	0m	warning	В pg_log (Greenplum) на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество записей с уровнем ERROR и FATAL больше 100	func_service
GreenplumFatalLogErrors	В pg_log количество записей с уровнем ERROR и FATAL больше 300 (МБД.Г)	greenplum_pg_log_errors_fatal > 300	0m	critical	Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} за текущий день превысило 300	func_service

2.4 МБД.Х#

МБД.Х предназначена для обработки больших данных c применением технологий экосистемы Hadoop.

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
HadoopWarningMemHeapUsed	Объём используемой памяти heap занимает более 70% от макс. значения (МБД.Х)	((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.7 and (hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) < 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.7 and (hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) < 0.9)	5m	warning	Объём используемой памяти heap БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 70% от максимального значения	func_service
HadoopCriticalMemHeapUsed	Объём используемой памяти heap занимает более 90% от макс. значения (МБД.Х)	((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.9)	5m	critical	Объём используемой памяти heap БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 90% от максимального	func_service
HadoopWarningCapacityUsed	Общий объём используемого пространства для хранения данных занимает 70% от макс. значения (МБД.Х)	(hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.7 and (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) < 0.9	5m	warning	Общий объём используемого пространства для хранения данных БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает 70% от максимального значения	func_service
HadoopCriticalCapacityUsed	Общий объём используемого пространства для хранения данных занимает 90% от макс. значения (МБД.Х)	(hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.9	5m	critical	Общий объём используемого пространства для хранения данных БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает 90% от максимального значения	func_service
HadoopMissingBlocks	Имеются недостающие блоки данных (МБД.Х)	hadoop_f_s_namesystem_missing_blocks > 0	1m	critical	На хосте {{ $labels.host }} кластера {{ $labels.cluster}} имеются недостающие блоки данных БД Hadoop	func_service
HadoopWarningNonHeapMemoryUsage	Используемый объём памяти для non-heap областей в JVM занимает более 70% от макс. значения (МБД.Х)	(hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.7 and (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) < 0.9	5m	warning	Объём памяти для non-heap областей в JVM БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 70% от максимального значения	func_service
HadoopCriticalNonHeapMemoryUsage	Используемый объём памяти для non-heap областей в JVM занимает более 90% от макс. значения (МБД.Х)	(hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.9	5m	critical	Объём памяти для non-heap областей в JVM БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 70% от максимального значения	func_service
HadoopWarningAllocatedVCores	Количество выделенных ядер достигает более 70% от макс. значения (МБД.Х)	(hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.7 and (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) < 0.9	5m	warning	Количество выделенных ядер БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 70% от максимального значения	func_service
HadoopCriticalAllocatedVCores	Количество выделенных ядер достигает более 90% от макс. значения (МБД.Х)	(hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.9	5m	critical	Количество выделенных ядер БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 90% от максимального значения	func_service
HadoopWarningAllocatedGB	Количество выделенной памяти в ГБ достигает более 70% от макс. значения (МБД.Х)	(hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.7 and (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) < 0.9	5m	warning	Количество выделенной памяти в ГБ БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 70% от максимального значения	func_service
HadoopCriticalAllocatedGB	Количество выделенной памяти в ГБ достигает более 90% от макс. значения (МБД.Х)	(hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.9	5m	critical	Количество выделенной памяти в ГБ БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 90% от максимального значения	func_service

2.5 МБД.С#

МБД.С предназначена для потоковой обработки данных в реальном времени на основе Apache Kafka & Niagara Files (Nifi).

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
KafkaMaxLag	Наблюдается рост максимальной задержки Kafka (МБД.С)	increase(kafka_replica_manager_max_lag[5m]) > 0	0s	critical	Наблюдается рост максимальной задержки Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} в течение пяти минут	func_service
KafkaOfflineReplica	Более одной реплики Kafka находится в состоянии Offline (МБД.С)	kafka_replica_manager_offline_replica_count > 1	0s	critical	Более одной реплики Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} находится в состоянии Offline	func_service
KafkaOfflinePartitions	Имеется более одной недоступной партиции Kafka (МБД.С)	kafka_controller_offline_partitions_count > 1	0s	critical	Имеется более одной недоступной для чтения и записи партиции на хосте {{ $labels.host }} кластера {{ $labels.cluster}}	func_service
KafkaWarningHeapMemoryUsage	Использовано более 70% объёма динамической памяти Kafka (МБД.С)	(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.7 and (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) < 0.9	5m	warning	Использовано более 70% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}}	func_service
KafkaCriticalHeapMemoryUsage	Использовано более 90% объёма динамической памяти Kafka (МБД.С)	(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.9	5m	critical	Использовано более 90% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}}	func_service
KafkaZooKeeperExpires	Имеется более одного истёкшего срока действия сеанса ZooKeeper (МБД.С)	kafka_session_zookeeper_expires_per_sec{rate=“Count”} > 1	0s	critical	Имеется более одного истёкшего срока действия сеанса ZooKeeper на хосте {{ $labels.host }} кластера {{ $labels.cluster}}	func_service

2.6 МБД.Т#

МБД.Т предназначена для развертывания высокопроизводительных программных систем на основе резидентной СУБД Picodata.

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
PicodataReadOnlyState	Инстанс Picodata находится в режиме только для чтения	tnt_read_only == 1	0m	critical	Инстанс Picodata {{$labels.instance}} ПАК {{$labels._pak_id}} находится в режиме только для чтения	func_service
PicodataElectionState	Узел Picodata задействован в выборе лидера и принял соответствующее состояние	tnt_election_state == 1	0m	critical	Узел Picodata {{$labels.instance}} ПАК {{$labels._pak_id}} задействован в выборе лидера и принял соответствующее состояние	func_service

Для всех метрик Picodata нельзя определить универсальные значения, по которым нужно оповещать пользователя, поэтому предлагается шаблон, который позволяет пользователю создать собственные правила оповещения и выставить интересующие значения в зависимости от развёрнутого инстанса:

Название правила	PromQL выражение	Период	Важность	Шаблон	Категории
Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение	tnt_cpu_user_time > X	10m	warning	Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение	func_service
Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение	tnt_cpu_system_time > X	10m	warning	Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение	func_service
Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение	tnt_slab_arena_used > X	10m	warning	Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение	func_service
Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение	tnt_slab_arena_used_ratio > X	10m	warning	Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение	func_service
Объем данных, хранимых в файлах Picodata, превысил допустимое значение	tnt_vinyl_disk_data_size > X	10m	warning	Объем данных, хранимых в файлах Picodata, превысил допустимое значение	func_service
Объем индекса, хранимого в файлах Picodata, превысил допустимое значение	tnt_vinyl_disk_index_size > X	10m	warning	Объем индекса, хранимого в файлах Picodata, превысил допустимое значение	func_service
Размер индексов страниц данного инстанса Picodata превысил допустимое значение	tnt_vinyl_memory_page_index > X	10m	warning	Размер индексов страниц данного инстанса Picodata превысил допустимое значение	func_service
Общее количество запросов Picodata превысило допустимое значение	tnt_net_requests_total > X	10m	warning	Общее количество запросов Picodata превысило допустимое значение	func_service
Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение	tnt_net_requests_in_progress_current > X	10m	warning	Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение	func_service
Общее количество соединений с Picodata превысило допустимое значение	tnt_net_connections_total > X	10m	warning	Общее количество соединений с Picodata превысило допустимое значение	func_service
Текущее количество соединений с Picodata превысило допустимое значение	tnt_net_connections_current > X	10m	warning	Текущее количество соединений с Picodata превысило допустимое значение	func_service
Общее количество освобожденной памяти Picodata превысило допустимое значение	lj_gc_freed_total >	10m	warning	Общее количество освобожденной памяти Picodata превысило допустимое значение	func_service
Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение	lj_gc_steps_pause_total > X	10m	warning	Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение	func_service
Количество фиксаций транзакций в Picodata превысило допустимое значение	tnt_vinyl_tx_commit > X	10m	warning	Количество фиксаций транзакций в Picodata превысило допустимое значение	func_service
Количество откатов транзакций в Picodata превысило допустимое значение	tnt_vinyl_tx_rollback > X	10m	warning	Количество откатов транзакций в Picodata превысило допустимое значение	func_service
Количество потоков на инстансе Picodata превысило допустимое значение	tnt_fiber_amount > X	10m	warning	Количество потоков на инстансе Picodata превысило допустимое значение	func_service
Объём используемой памяти потоков Picodata превысил допустимое значение	tnt_fiber_memused > X	10m	warning	Объём используемой памяти потоков Picodata превысил допустимое значение	func_service

2.7 МБД.П#

МБД.П предназначенна для обработки и хранения данных, специально оптимизирована для работы СУБД PostgreSQL в высоконагруженных системах.

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
EraDiskNotAvailable	Диск ERA RAID недоступен (МБД.П)	era_disk_state == 0	4h	critical	Диск {{ $labels.device_name }} RAID’а {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraCouldNotReconstruct	ERA RAID не может завершить реконструкцию (МБД.П)	era_raid_state_initialization == 10	1h	critical	RAID {{ $labels.raid_name }} не может завершить реконструкцию, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraCouldNotRecover	ERA RAID не смог восстановиться (МБД.П)	era_raid_state_initialization == 11	1h	critical	RAID {{ $labels.raid_name }} не смог восстановиться, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraInitialNeeds	ERA RAID нуждается в инициализации (МБД.П)	era_raid_state_initialization == 2	30m	warning	RAID {{ $labels.raid_name }} нуждается в инициализации, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraReconstructNeeds	ERA RAID нуждается в реконструкции (МБД.П)	era_raid_state_initialization == 7	4h	critical	RAID {{ $labels.raid_name }} нуждается в реконструкции, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraNotAvailable	ERA RAID недоступен (МБД.П)	era_raid_state_availability == 0	30m	critical	RAID {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraHighDiskWear	Существенный износ диска (МБД.П)	era_disk_wear > 75	24h	warning	Существенный износ диска {{ $labels.device_name }} RAID’а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraCriticalDiskWear	Критический износ диска (МБД.П)	era_disk_wear > 90	4h	critical	Критический износ диска {{ $labels.device_name }} RAID’а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraLicenseExpire	Месяц до истечения лицензии ERA (МБД.П)	((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7)	0s	warning	До истечения срока действия лицензии с ключом {{ $labels.license_key }} остался месяц, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraLicenseExpireSoon	Неделя до истечения лицензии ERA (МБД.П)	((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1	0s	critical	До истечения срока действия лицензии с ключом {{ $labels.license_key }} осталась неделя, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
EraLicenseNotActive	Лицензия неактивна (МБД.П)	era_license_status != 1	0s	critical	Лицензия с ключом {{ $labels.license_key }} неактивна, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}	storage
SpectrumHighAutovacuumProcCount	Активных процессов автовакуума больше 3 (МБД.П)	spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6	1m	warning	Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 3	func_service
SpectrumCriticalAutovacuumProcCount	Активных процессов автовакуума больше 6 (МБД.П)	spectrum_autovacuum_proc_count > 6	1m	warning	Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 6 (PG)	func_service
PostgresHighActiveSessionsCount	Количество активных сессий достигло 100 (МБД.П)	pg_stat_activity_count > 100 and pg_stat_activity_count < 500	30s	warning	Количество активных сессий достигло 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
PostgresCriticalActiveSessionsCount	Количество активных сессий достигло 500 (МБД.П)	pg_stat_activity_count > 500	30s	critical	Количество активных сессий достигло 500 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
PostgresHighReplicationLag	Лаг репликации достиг значения 50 (МБД.П)	pg_replication_lag > 50 and pg_replication_lag < 100	5m	warning	Лаг репликации достиг значения 50 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
PostgresCriticalReplicationLag	Лаг репликации достиг значения 100 (МБД.П)	pg_replication_lag > 100	5m	critical	Лаг репликации достиг значения 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
PostgresHighDatabaseTemp	Используется более 50 GB TEMP (МБД.П)	pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100	5m	warning	Используется более 50 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
PostgresCriticalDatabaseTemp	Используется более 100 GB TEMP (МБД.П)	pg_stat_database_temp_bytes > 100	5m	critical	Используется более 100 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}	func_service
RaidixNetworkVipDown	VIP Raidix находится в выключенном состоянии	raidix_network_vip_up != 1	5m	warning	VIP Raidix {{ $labels.vip_address }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в выключенном состоянии	server
RaidixDriveIsDirty	Имеются метаданные другого Raid на диске	raidix_drive_dirty > 0	5m	warning	На диске {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеются метаданные с кодом {{ $labels.dirty_code }}	server
RaidixDcPassive	DC Raid находится в состоянии Passive	raidix_raid_dc_status != 0	5m	warning	DC у Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии Passive	server
RaidixRaidDown	Raid находится в состоянии, отличном от Online	raidix_raid_status != 1	5m	warning	Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от Online	server
RaidixRaidDegraded	Raid находится в состоянии degraded	raidix_raid_degraded > 0	5m	warning	Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии degraded, значение {{ $value }}	server
RaidixRaidShareBadStatus	Raid имеет проблемы с общими ресурсами	raidix_raid_share_status != 1	5m	warning	Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеет проблемы с общими ресурсами	server

2.8 МВ.ДИ#

МВ.ДИ предназначена для создания частного облака с возможностями виртуализации и управления контейнерами, в основе машины - программный продукт Базис.DynamiX

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
LibvirtDomainMemoryWarning	Процент использования памяти доменом Libvirt достиг 80% (МВ.ДИ)	libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90	5m	warning	У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value	humanize }}%
LibvirtDomainMemoryCritical	Процент использования памяти доменом Libvirt достиг 90% (МВ.ДИ)	libvirt_domain_memory_stats_used_percent > 90	5m	critical	У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value	humanize }}%
BVSStatusCritical	Узел BVS МВ.ДИ находится в статусе, отличном от Online	dynamix_bvs_node_status!=1	0m	critical	Узел BVS {{ $labels._node_id }} ПАКа {{ $labels._pak_id }} находится в статусе {{ $value }}	server
KubernetesNodeStatusNotReady	Узел K8S находится в статусе, отличном от Ready (МВ.ДИ)	k8s_node_status{condition!=“Ready”}==1	5m	critical	Узел {{ $labels.name }} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
KubernetesPodStatusFailed	Под K8S находится в статусе Failed (МВ.ДИ)	k8s_pod_status==0	5m	critical	Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе Failed	func_service
KubernetesPodStatusNotRunning	Под K8S находится в статусе, отличном от Running (МВ.ДИ)	k8s_pod_status != 0 and k8s_pod_status != 1	5m	warning	Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }}	func_service
KubernetesComponentStatusNotTrue	Компонент K8S находится в статусе, отличном от True (МВ.ДИ)	k8s_component_status!=1	5m	critical	Компонент {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }}	func_service
DynamixVMTechStatusWarning	Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе	dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7	0m	warning	Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе {{ $value }}	func_service
DynamixVMTechStatusCritical	Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN	dynamix_vm_tech_status == 7	0m	critical	Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе DOWN	func_service
DynamixVMWorkingStatusWarning	Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности	dynamix_vm_status != 1 and dynamix_vm_status != 0	0m	warning	Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}	func_service
DynamixNodeStatusWarning	Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности	dynamix_node_status != 1 and dynamix_node_status != 0	0m	warning	Узел Dynamix {{ $labels.node_name }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}	func_service
TatlinDiskStatusWarning	Диск СХД Татлин находится в статусе Warning	tatlinHwDiskStateCode == 3	5m	warning	Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinDiskStatusError	Диск СХД Татлин находится в статусе Error	tatlinHwDiskStateCode == 2	5m	critical	Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinDiskStatusInfo	Диск СХД Татлин находится в статусе Info	tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3	5m	info	Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinDiskBayFailure	Дисковая полка Татлин находится в статусе Error	tatlinHwDiskbayStateCode != 1	5m	critical	Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinDiskBayLost	Потеряна связь с дисковой полкой СХД Татлин	lag(tatlinHwDiskbaySn{}[2h]) > 15m	0s	critical	Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinEthernetPortWarning	Порт Ethernet СХД Татлин находится в статусе Warning	tatlinHwEthStateCode == 3	5m	warning	Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage, network
TatlinEthernetPortError	Порт Ethernet СХД Татлин находится в статусе Error	tatlinHwEthStateCode == 2	5m	critical	Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage, network
TatlinEthernetPortInfo	Порт Ethernet СХД Татлин находится в статусе info	tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3	5m	info	Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage, network
TatlinFibreChannelPortWarning	Порт Fibre Channel СХД Татлин находится в статусе Warning	tatlinHwFcStateCode == 3	5m	warning	Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage, network
TatlinFibreChannelPortError	Порт Fibre Channel СХД Татлин находится в статусе Error	tatlinHwFcStateCode == 2	5m	critical	Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage, network
TatlinFibreChannelPortInfo	Порт Fibre Channel СХД Татлин находится в статусе Info	tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3	5m	info	Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage, network
TatlinReplicationManagementNetworkCritical	Сеть управления репликациями СХД Татлин находится в статусе Failure	tatlinConfigReplicationStorageMgmtNetwork == 4	5m	critical	Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinReplicationNetworkCritical	Сеть репликаций СХД Татлин находится в статусе Failure	tatlinConfigReplicationStorageReplicationNetwork != 1	5m	critical	Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinPoolFreeSpaceRunningOutWarning	Заканчивается свободное место СХД Татлин	tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold	30m	warning	{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinPoolFreeSpaceRunningOutCritical	Свободное место СХД Татлин почти закончилось	tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold	30m	critical	{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinResourceFreeSpaceRunningOutCritical	Свободное место ресурса СХД Татлин почти закончилось	(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType=“thin”}, “tatlinConfigResPool”, “$1”, “tatlinConfigPoolName”, “(.)”)) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType=“thin”}, “tatlinConfigResPool”, “$1”, “tatlinConfigPoolName”, “(.)”)) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType=“thin”}, “tatlinConfigResPool”, “$1”, “tatlinConfigPoolName”, “(.*)”))	30m	critical	{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinDriveCapacityFailure	Ошибка объёма накопителя СХД Татлин	tatlinConfigDriveFailed > 0	30m	critical	{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinDriveFailed	Имеются ошибки накопителя СХД Татлин	tatlinConfigDriveFailedCount > 0	30m	critical	Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage
TatlinPoolOversubscription	Пул СХД Татлин находится в состоянии избыточного выделения ресурсов	100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, ’tatlinConfigPoolName’, ’tatlinConfigResPool’)) > 100	30m	critical	У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value	humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinNoResponse	СХД Татлин не отвечает по SNMP	lag(tatlinVersion{}[2h]) > 15m	0s	critical	СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value	humanizeDuration }}
TatlinCPUUtilizationWarning	Загрузка процессора СХД Татлин достигла 90%	(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)	5m	warning	Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%	storage
TatlinCPUUtilizationCritical	Загрузка процессора СХД Татлин достигла 95%	100 - tatlinPerfCpuIdle >= 95	2m	critical	Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%	storage
StorageProcessorFailure	Ошибка процессора СХД Татлин	tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0	5m	critical	Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	storage

2.9 МВ.С#

МВ.С предназначена для создания горизонтально масштабируемой и отказоустойчивой инфраструктуры виртуализации.

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
MVSClickHouseDown	БД ClickHouse кластера не работает (МВ.С)	mvs_clickhouse_up!=1	5m	critical	БД ClickHouse МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
MVSClickHouseDisabled	БД ClickHouse кластера выключена (МВ.С)	mvs_clickhouse_enabled!=1	5m	critical	БД ClickHouse МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
MVSDBReadStateFailure	Основная БД кластера недоступна для чтения (МВ.С)	mvs_db_read_state!=1	5m	critical	Основная БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
MVSDBWriteStateFailure	Основная БД кластера недоступна для записи (МВ.С)	mvs_db_write_state!=1	5m	critical	Основная БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
MVSInMemDBReadStateFailure	In-memory БД кластера недоступна для чтения (МВ.С)	mvs_memdb_read_state!=1	5m	critical	In-memory БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
MVSInMemDBWriteStateFailure	In-memory БД кластера недоступна для записи (МВ.С)	mvs_memdb_write_state!=1	5m	critical	In-memory БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}	func_service
MVSRedisSubjectiveUnavailable	Сервер Redis недоступен с точки зрения текущего хоста (МВ.С)	mvs_redis_server_subjective_status!=1	5m	critical	Сервер Redis МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен с точки зрения текущего хоста	func_service
MVSRedisObjectiveUnavailable	Сервер Redis недоступен с точки зрения кластера (МВ.С)	mvs_redis_server_objective_status!=1	5m	critical	Сервер Redis МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен с точки зрения кластера	func_service
MVSRedisMasterConnectionFailure	Сервер Redis не подключен к мастеру (МВ.С)	mvs_redis_server_master_connection!=1	5m	critical	Сервер Redis МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} не подключен к мастеру	func_service
MVSSentinelFailure	Сервер Sentinel недоступен (МВ.С)	mvs_sentinel_status!=1	5m	critical	Сервер Sentinel МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен	func_service
MVSVIPFailure	Виртуальный IP недоступен (МВ.С)	mvs_vip_status!=1	5m	critical	Виртуальный IP МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен	func_service
MVSBackendFailure	Сервер бэкенда недоступен (МВ.С)	mvs_backend_status!=1	5m	critical	Сервер бэкенда МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен	func_service
MVSManagementFailure	Узел управления недоступен (МВ.С)	mvs_manager_status!=1	5m	critical	Узел управления МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен	func_service
MVSAgentFailure	Клиентский узел недоступен (МВ.С)	mvs_agent_status!=1	5m	critical	Клиентский узел МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен	func_service
MVSClusterFailure	Кластер МВ.С недоступен	mvs_cluster_status!=1	5m	critical	Кластер МВ.С ПАКа {{ $labels._pak_id }} недоступен	func_service
VStorageNotHealthy	Хранилище МВ.С недоступно	vstorage_status!=1	5m	critical	Хранилище {{$labels.cluster_name}} МВ.С ПАКа {{ $labels._pak_id }} недоступно	func_service

2.10 МХД.О#

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Категории
ServerProxyHttpFailsCritical	Ошибок 5хх более 1 процента в минуту	`s3gw_proxy_http_response{code=~"5."}100/sum(s3gw_proxy_http_response) >= 1`	1m	critical	Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту.	func_service
ServerProxyHttpFailsWarning	Ошибок 5хх от 0.1 до 1 процента в минуту	`(s3gw_proxy_http_response{code=~"5."}100/sum(s3gw_proxy_http_response) > 0.1) AND (s3gw_proxy_http_response{code=~"5."}100/sum(s3gw_proxy_http_response) < 1)`	1m	warning	Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх в интервале от 0.1 до 1% от общего числа запросов в минуту.	func_service
ServerProxyHttpFailsInfo	Ошибок 5хх менее 0.1 процента в минуту	`s3gw_proxy_http_response{code=~"5."}100/sum(s3gw_proxy_http_response) < 0.1`	1m	info	Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх менее 0.1% от общего числа запросов в минуту.	func_service
ServerControlHttpFailsCritical	Ошибок 5хх более 1 процента в минуту	`s3gw_control_http_response{code=~"5."}100/sum(s3gw_control_http_response) >= 1`	1m	critical	Количество запросов на control {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту.	func_service
LicenceCapacityUtilizationWarning	Утилизация лицензий превысила 85%	`(vstorage_space_free100/vstorage_license_capacity >= 85) AND (vstorage_space_free100/vstorage_license_capacity < 95)`	1m	info	Утилизация лицензий МХДО превысила 85% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
LicenceCapacityUtilizationAlarm	Утилизация лицензий превысила 95%	`(vstorage_space_free100/vstorage_license_capacity >= 95) AND (vstorage_space_free100/vstorage_license_capacity < 99)`	1m	warning	Утилизация лицензий МХДО превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
LicenceCapacityUtilizationCritical	Утилизация лицензий превысила 99%	`vstorage_space_free*100/vstorage_license_capacity >= 99`	1m	critical	Утилизация лицензий МХДО превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
LicenceExpirationWarning	До истечения лицензий МХДО менее 30 дней	`(vstorage_license_expiration_ts1000 <= 30) AND (vstorage_license_expiration_ts1000 > 14)`	1m	info	До истечения лицензий МХДО менее 30 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
LicenceExpirationAlarm	До истечения лицензий МХДО менее 14 дней	`(vstorage_license_expiration_ts1000 <= 14) AND (vstorage_license_expiration_ts1000 > 7)`	1m	warning	До истечения лицензий МХДО менее 14 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
LicenceExpirationCritical	До истечения лицензий МХДО менее 7 дней	`vstorage_license_expiration_ts*1000 <= 7`	1m	critical	До истечения лицензий МХДО менее 7 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
ActiveServicesReduced_ACC	Уменьшилось количество активных ACC сервисов	`s3cluster_volume_service_configured_count{svc_type="ACC"} - s3cluster_volume_service_count{svc_type="ACC"} > 0`	1m	warning	Количество активных сервисов ACC уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
ActiveServicesReduced_OS	Уменьшилось количество активных OS сервисов	`s3cluster_volume_service_configured_count{svc_type="OS"} - s3cluster_volume_service_count{svc_type="OS"} > 0`	1m	warning	Количество активных сервисов OS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
ActiveServicesReduced_NS	Уменьшилось количество активных NS сервисов	`s3cluster_volume_service_configured_count{svc_type="NS"} - s3cluster_volume_service_count{svc_type="NS"} > 0`	1m	warning	Количество активных сервисов NS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
ActiveServicesReduced_GW	Уменьшилось количество активных GW сервисов	`s3cluster_volume_service_configured_count{svc_type="GW"} - s3cluster_volume_service_count{svc_type="GW"} > 0`	1m	warning	Количество активных сервисов GW уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
HaproxyFrontendBytesInTotal	Отсутствие входящего трафика haproxy в течении 5 минут	`sum(rate(haproxy_frontend_bytes_in_total[5m])*8) by (instance) == 0`	5m	warning	Отсутствие входящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
HaproxyFrontendBytesOutTotal	Отсутствие исходящего трафика haproxy в течении 5 минут	`sum(rate(haproxy_frontend_bytes_out_total[5m])*8) by (instance) == 0`	5m	warning	Отсутствие исходящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	func_service
SystemUnitS3GatewayCompressionServerStoped	Остановка сервиса s3gateway-compression-server.service	`systemd_unit_state{name="s3gateway-compression-server.service"} != 1`	1m	critical	Произошла остановка сервиса s3gateway-compression-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayControlServerStoped	Остановка сервиса s3gateway-control-server.service	`systemd_unit_state{name="s3gateway-control-server.service"} != 1`	1m	critical	Произошла остановка сервиса s3gateway-control-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayProxyServerStoped	Остановка сервиса s3gateway-proxy-server.service	`systemd_unit_state{name="s3gateway-proxy-server.service"} != 1`	1m	critical	Произошла остановка сервиса s3gateway-proxy-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayOstorServerStoped	Остановка сервиса s3gateway-ostor-server.service	`systemd_unit_state{name="s3gateway-ostor-server.service"}!= 1`	1m	critical	Произошла остановка сервиса s3gateway-ostor-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitNginxStoped	Остановка сервиса nginx.service	`systemd_unit_state{name="nginx.service"}!= 1`	1m	critical	Произошла остановка сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitPostgresStoped	Остановка сервиса postgres.server	`systemd_unit_state{name="postgres.service"}!= 1`	1m	critical	Произошла остановка сервиса postgres.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitKeepalivedStoped	Остановка сервиса keepalived.service	`systemd_unit_state{name="keepalived.service"}!= 1`	1m	critical	Произошла остановка сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitHaproxyStoped	Остановка сервиса haproxy.service	`systemd_unit_state{name="haproxy.service"}!= 1`	1m	critical	Произошла остановка сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitChronydStoped	Остановка сервиса chronyd.service	`systemd_unit_state{name="chronyd.service"}!= 1`	1m	critical	Произошла остановка сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitPacemakerStoped	Остановка сервиса pacemaker.service	`systemd_unit_state{name="pacemaker.service"}!= 1`	1m	critical	Произошла остановка сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitOstorCfgdStoped	Остановка сервиса ostor-cfgd.service	`systemd_unit_state{name="ostor-cfgd.service"}!= 1`	1m	critical	Произошла остановка сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitOstorAgentdStoped	Остановка сервиса ostor-agentd.service	`systemd_unit_state{name="ostor-agentd.service"}!= 1`	1m	critical	Произошла остановка сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitVstorageCsdStoped	Остановка сервиса вида vstorage-csd.X.X.service	`systemd_unit_state{name=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1`	1m	critical	Произошла остановка сервиса vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitVstorageMdsdStoped	Остановка сервиса вида vstorage-mdsd.X.X.service	`systemd_unit_state{name=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1`	1m	critical	Произошла остановка сервиса vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitVstorageShamanStoped	Остановка сервиса вида vstorage-shaman@.X.service	`systemd_unit_state{name=~"shaman@[a-zA-Z0-9]+\\.service"}!= 1`	1m	critical	Произошла остановка сервиса vstorage-shaman@.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayCompressionServerRestart	Перезапуск сервиса s3gateway-compression-server.service	`(systemd_service_uptime{service="s3gateway-compression-server.service"} < systemd_service_uptime{service="s3gateway-compression-server.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса s3gateway-compression.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayControlServerRestart	Перезапуск сервиса s3gateway-control-server.service	`(systemd_service_uptime{service="s3gateway-control-server.service"} < systemd_service_uptime{service="s3gateway-control-server.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса s3gateway-control.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayProxyServerRestart	Перезапуск сервиса s3gateway-proxy-server.service	`(systemd_service_uptime{service="s3gateway-proxy-server.service"} < systemd_service_uptime{service="s3gateway-proxy-server.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса s3gateway-proxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitS3GatewayOstorServerRestart	Перезапуск сервиса s3gateway-ostor-server.service	`(systemd_service_uptime{service="s3gateway-ostor-server.service"} < systemd_service_uptime{service="s3gateway-ostor-server.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса s3gateway-ostore.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitNginxRestart	Перезапуск сервиса nginx.service	`(systemd_service_uptime{service="nginx.service"} < systemd_service_uptime{service="nginx.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitPostgresRestart	Перезапуск сервиса postgres.server	`(systemd_service_uptime{service="postgres.server"} < systemd_service_uptime{service="postgres.server"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса postgres.server на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitKeepalivedRestart	Перезапуск сервиса keepalived.service	`(systemd_service_uptime{service="keepalived.service"} < systemd_service_uptime{service="keepalived.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitHaproxyRestart	Перезапуск сервиса haproxy.service	`(systemd_service_uptime{service="haproxy.service"} < systemd_service_uptime{service="haproxy.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitChronydRestart	Перезапуск сервиса chronyd.service	`(systemd_service_uptime{service="chronyd.service"} < systemd_service_uptime{service="chronyd.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitPacemakerRestart	Перезапуск сервиса pacemaker.service	`(systemd_service_uptime{service="pacemaker.service"} < systemd_service_uptime{service="pacemaker.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitOstorCfgdRestart	Перезапуск сервиса ostor-cfgd.service	`(systemd_service_uptime{service="ostor-cfgd.service"} < systemd_service_uptime{service="ostor-cfgd.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitOstorAgentdRestart	Перезапуск сервиса ostor-agentd.service	`(systemd_service_uptime{service="ostor-agentd.service"} < systemd_service_uptime{service="ostor-agentd.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitVstorageMsdRestart	Перезапуск сервиса вида vstorage-mdsd.X.X.service	`(systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса вида vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitVstorageCsdRestart	Перезапуск сервиса вида vstorage-csd.X.X.service	`(systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса вида vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
SystemUnitVstorageShamanRestart	Перезапуск сервиса вида vstorage-shaman@X.service	`(systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} < systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} offset 1m) == 1`	1m	warning	Произошел перезапуск сервиса вида vstorage-shaman@X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}	server
NodeStuckIORequests	Застрявшие запросы ввода-вывода на узле	fused_stuck_reqs_30s > 0 or fused_stuck_reqs_10s > 0	1m	critical	Некоторые запросы ввода-вывода застряли на узле {{ $labels._node_id }}.	func_service
ClusterBlockedReplication	Заблокированная или медленная репликация в кластере	increase(mdsd_cluster_replication_stuck_chunks[5m]) > 0 or increase(mdsd_cluster_replication_touts_total[5m]) > 0	1m	critical	Репликация чанков заблокирована или слишком медленная.	func_service
NodeFailedMapRequests	Неудавшиеся запросы карты на узле	fused_maps_failed > 0 or rate(fused_map_failures_total[5m]) > 0	1m	critical	Некоторые запросы карты на узле {{ $labels._node_id }} завершились неудачно.	func_service
ClusterTooManyChunks	Слишком много чанков в кластере	15000000 > mdsd_fs_chunk_maps_sum > 10000000	1m	warning	В кластере слишком много чанков, что замедляет работу службы метаданных.	func_service
ClusterCriticallyHighChunks	Критически большое количество чанков в кластере	mdsd_fs_chunk_maps_sum >= 15000000	1m	critical	В кластере слишком много чанков, что замедляет работу службы метаданных.	func_service
ClusterTooManyFiles	Слишком много файлов в кластере	10000000 > mdsd_fs_files_sum > 4000000	1m	warning	В кластере слишком много файлов, что замедляет работу службы метаданных.	func_service
ClusterCriticallyHighFiles	Критически большое количество файлов в кластере	mdsd_fs_files_sum >= 10000000	1m	critical	В кластере слишком много файлов, что замедляет работу службы метаданных.	func_service
MetadataServiceHighCommitLatency	Высокая задержка коммитов службы метаданных	5 > histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) > 1	1m	warning	Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 1 секунды.	func_service
MetadataServiceCriticallyHighLatency	Критически высокая задержка коммитов службы метаданных	histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) >= 5	1m	critical	Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 5 секунд.	func_service
ClusterOfflineChunkServices	Оффлайн службы чанков в кластере	sum(mdsd_cs_status_value{status=“offline”}) > 0	1m	warning	Некоторые службы чанков находятся в оффлайн. Проверьте и перезапустите их.	func_service
ClusterFailedChunkServices	Неисправные службы чанков в кластере	sum(mdsd_cs_status_value{status=“failed”}) + sum(mdsd_cs_status_value{status=“failed rel”}) > 0	1m	warning	Некоторые службы чанков завершились с ошибкой. Это может быть вызвано сбоем физического диска.	func_service
ClusterUnavailableMetadataServices	Недоступные службы метаданных в кластере	count(up{service=“MDS”}) - sum(up{service=“MDS”}) > 0	1m	warning	Некоторые службы метаданных находятся в оффлайн или завершились с ошибкой. Проверьте и перезапустите их.	func_service
ClusterLowPhysicalSpace	Нехватка физического пространства в кластере	label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), “object_id”, “tier-$1”, “tier”, “(.*)”) < 0.2	1m	warning	Осталось мало свободного физического пространства на уровне хранения {{ $labels.tier }}.	func_service
ClusterOutOfPhysicalSpace	Исчерпание физического пространства в кластере	label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), “object_id”, “tier-$1”, “tier”, “(.*)”) < 0.1	1m	critical	Недостаточно свободного физического пространства на уровне хранения {{ $labels.tier }}.	func_service
MasterMetadataServiceFrequentChanges	Частая смена главной службы метаданных	topk(1, mdsd_is_master_top1) and (delta(mdsd_master_uptime[1h]) < 300000)	10m	warning	Главная служба метаданных изменилась более одного раза за 5 минут.	func_service
S3GatewayHighGetLatency	Высокая задержка GET-запросов шлюза S3	5000 > histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000	1m	warning	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 1 секунды.	func_service
S3GatewayCriticallyHighGetLatency	Критически высокая задержка GET-запросов шлюза S3	histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (_pak_id, instance, le)) >= 5000	1m	critical	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 5 секунд.	func_service
ObjectServiceCriticallyHighLatency	Критически высокая задержка запросов объектной службы	histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000	1m	critical	Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.	func_service
ObjectServiceHighLatency	Высокая задержка запросов объектной службы	5000 > histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000	1m	warning	Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.	func_service
NameServiceCriticallyHighLatency	Критически высокая задержка запросов службы имен	histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000	1m	critical	Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.	func_service
NameServiceHighLatency	Высокая задержка запросов службы имен	5000 > histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000	1m	warning	Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.	func_service
NameServiceHighCommitLatency	Высокая задержка коммитов службы имен	10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“NS”}) by (instance, _pak_id, le)) > 1000000	1m	warning	Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.	func_service
NameServiceCriticallyHighCommitLatency	Критически высокая задержка коммитов службы имен	histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“NS”}) by (instance, _pak_id, le)) >= 10000000	1m	critical	Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.	func_service
ObjectServiceHighCommitLatency	Высокая задержка коммитов объектной службы	10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“OS”}) by (instance, _pak_id, le)) > 1000000	1m	warning	Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.	func_service
ObjectServiceCriticallyHighCommitLatency	Критически высокая задержка коммитов объектной службы	histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“OS”}) by (instance, _pak_id, le)) >= 10000000	1m	critical	Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.	func_service
S3GatewayHighCancelRate	Высокая частота отмены запросов шлюза S3	30 > ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 > 5	1m	warning	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 5%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.	func_service
S3GatewayCriticallyHighCancelRate	Критически высокая частота отмены запросов шлюза S3	((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 >= 30	1m	critical	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 30%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.	func_service
ObjectStorageAgentFrozen	Замороженный агент объектного хранилища	increase(pcs_process_inactive_seconds_total{service=“OS”}[5m]) > 0	1m	critical	Агент объектного хранилища по адресу {{ $labels.instance }} имеет неактивный цикл событий более 1 минуты.	func_service
S3ServiceFrozen	Замороженная служба S3	increase(pcs_process_inactive_seconds_total{service=~“S3GW	OS	NS”}[5m]) > 0	1m	critical
S3GatewayHighCPU	Высокая загрузка процессора шлюза S3	90 > (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service=“S3GW”}[5m])) * 100) > 75	1m	warning	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 75%. Служба может быть перегружена.	func_service
S3GatewayCriticallyHighCPU	Критически высокая загрузка процессора шлюза S3	(sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service=“S3GW”}[5m])) * 100) >= 90	1m	critical	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 90%. Служба может быть перегружена.	func_service
S3GatewayHighFailedRequests	Большое количество неудачных запросов шлюза S3	((sum(ostor_req_server_err_rate) by (instance, _pak_id)) / (sum(ostor_s3gw_req_rate) by (instance, _pak_id))) * 100 > 5	1m	critical	Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет много неудачных запросов с ошибкой сервера (код состояния 5XX).	func_service
S3ServiceFailedStart	Неудачный запуск службы S3	increase(ostor_svc_start_failed_count_total{service=~“OS	NS	S3GW”}[5m]) > 1	1m	critical
FSFailedStart	Неудачный запуск файловой службы	increase(ostor_svc_start_failed_count_total{service=“FS”}[5m]) > 1	1m	critical	Агент объектного хранилища не смог запустить файловую службу по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.	func_service
ObjectStorageAgentOffline	Оффлайн агент объектного хранилища	up{service=“OSTOR_REPLICATO”} == 0	1m	warning	Агент объектного хранилища находится в оффлайн по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.	func_service
ObjectStorageAgentNoConfigConnection	Агент объектного хранилища не подключен к службе конфигурации	increase(ostor_svc_registry_cfg_failed_total[5m]) > 1	1m	critical	Агент объектного хранилища не смог подключиться к службе конфигурации по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.	func_service
S3ClusterUnavailableObjectServices	Недоступные объектные службы в кластере S3	count(up{service=“OS”}) by (instance) > sum(up{service=“OS”}) by (instance)	1m	warning	Некоторые объектные службы не работают по адресу {{ $labels.instance }} ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.	func_service
S3ClusterUnavailableNameServices	Недоступные службы имен в кластере S3	count(up{service=“NS”}) by (instance) > sum(up{service=“NS”}) by (instance)	1m	warning	Некоторые службы имен не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.	func_service
S3ClusterUnavailableS3GatewayServices	Недоступные службы шлюза S3 в кластере	count(up{service=“S3GW”}) by (instance) > sum(up{service=“S3GW”}) by (instance)	1m	warning	Некоторые службы шлюза S3 не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.	func_service
S3ClusterUnavailableGeoReplicationServices	Недоступные службы георепликации в кластере S3	count(up{service=“GR”}) by (instance) > sum(up{service=“GR”}) by (instance)	1m	warning	Некоторые службы георепликации не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.	func_service
NFSServiceUnavailableFSServices	Недоступные файловые службы NFS	count(up{service=“FS”}) by (instance) > sum(up{service=“FS”}) by (instance)	1m	warning	Некоторые файловые службы не работают на узле {{ $labels._node_id }}. Проверьте статус службы в командной строке.	func_service
MetadataServiceHighCPU	Высокая загрузка процессора службы метаданных	(sum by (_node_id) (rate(process_cpu_seconds_total[5m])) * 100) > 80	1m	warning	Служба метаданных на узле {{ $labels._node_id }} имеет загрузку процессора выше 80%. Служба может быть перегружена.	func_service
NodeHighTransmitPacketError	Высокая частота ошибок исходящих пакетов	node_network_transmit_errs_total_rate > 1000	5m	warning	Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.	func_service
NetworkBondNotRedundant	Сетевой бонд не избыточен	`node_bonding_slaves - node_bonding_active > 0`	5m	critical	Сетевой бонд {{ $labels.master }} на узле {{ $labels._node_id }} не имеет {{ $labels.value }} подчиненных интерфейсов.	func_service