1. Общая информация о правилах оповещения Визион#
Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .
В поле “Имя” в списке уведомлений попадает значение из поля “Имя” в Правиле Оповещения.
Период определяет интервал времени, в течение которого выражение, определяющее правило оповещения, остается истинным, прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.
Важность определяет значимость события для пользователя. Важность может принимать следующие значения:
- critical (максимальная важность)
- info
- warning
Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.
Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.
2. Список правил оповещения, входящих в поставку Визион#
2.1 Универсальные правила#
Данные правила оповещения могут применяться вне зависимости от типа машины.
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
NodeOutOfMemory | Память узла почти заполнена | node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1 | 2m | warning | Осталось {{$value | humanizePercentage }} свободной памяти узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}} |
NodeMemoryUnderMemoryPressure | Системе не хватает свободной памяти на узле | rate(node_vmstat_pgmajfault[1m]) > 1000 | 2m | warning | Большая нагрузка на память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}. Слишком часто происходят отказы главной страницы | server |
NodeMemoryIsUnderutilized | Недоиспользование памяти узла | (1 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes ) < 0.2) | 4d | info | Память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}} заполнена на {{$value | humanizePercentage }} за последние 4 дня |
NodeUnusualNetworkThroughputIn | Сеть начала резко получать более 100 мб/с | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100 | 5m | warning | Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (входящие данные) | server, network |
NodeUnusualNetworkThroughputOut | Сеть начала резко отдавать более 100 мб/с | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100 | 5m | warning | Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (исходящие данные) | server, network |
NodeUnusualDiskReadRate | Диск начал резко читать более 50 мб/с | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50 | 5m | warning | Необычная активность при чтении диска на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeUnusualDiskWriteRate | Диск начал резко писать более 50 мб/с | sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50 | 5m | warning | Необычная активность при записи на диск на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeDiskWillFillIn24Hours | Дисковое пространство на узле почти заполнено | (node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0 | 2m | warning | Дисковое пространство на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} почти заполнено и закончится в течение 24 часов | server |
NodeOutOfInodes | На диске на узле почти закончились свободные индексные дескрипторы | node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0 | 2m | warning | Индексные дескрипторы заполнены на 90% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeFilesystemDeviceError | Ошибка файловой системы на узле | node_filesystem_device_error == 1 | 2m | critical | Ошибка файловой системы на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeInodesWillFillIn24Hours | Индексные дескрипторы на узле скоро заполнятся | node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0 | 2m | warning | Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeUnusualDiskReadLatency | Необычная задержка при чтении файлов с диска на узле | rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0 | 2m | warning | Задержка при чтении файлов с диска выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeUnusualDiskWriteLatency | Необычная задержка при записи файлов на диск на узле | rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0 | 2m | warning | Задержка при записи файлов на диск выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeHighCpuLoad | Большая нагрузка на ЦП на узле | avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!=“idle”}[2m])) > 0.8 | 2m | warning | ЦП загружен на {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} |
NodeCpuIsUnderutilized | Слишком низкая загрузка на процессор на узле | 1 - (rate(node_cpu_seconds_total{mode=“idle”}[30m])) < 0.2 | 4d | warning | ЦП загружен {{$value | humanizePercentage }} последние 4 дня на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} |
NodeCpuStealNoisyNeighbor | Нехватка процессорного времени на узле | avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) > 0.1 | 0m | warning | Не хватает {{$value | humanizePercentage }} процессорного времени на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}, ресурсы используются другими хостами/контейнерами. |
NodeCpuHighIowait | Iowat ЦП на узле превышает 10% | avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) > 0.1 | 0m | warning | Iowat ЦП достиг {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} |
NodeUnusualDiskIo | Необычная активность IO на диске хоста | rate(node_disk_io_time_seconds_total[1m]) > 0.5 | 5m | warning | Время, проведённое в IO, достигло {{ $value }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeContextSwitchingHigh | Часто происходит смена контекста на хосте | (rate(node_context_switches_total[15m]) / count (node_cpu_seconds_total{mode=“idle”}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=“idle”})) > 2 | 0m | warning | Частота смены контекста на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} активно растёт | server |
NodeSwapIsFillingUp | SWAP хоста заполняется | (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) > 0.8 | 2m | warning | SWAP хоста заполнен на {{$value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} |
NodeOomKillDetected | Out of Memory Killer начал работу | increase(node_vmstat_oom_kill[1m]) > 0 | 0m | warning | Out of Memory Killer начал работу на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeNetworkReceiveErrors | Рост сетевых ошибок на получение на хосте | rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 | 2m | warning | В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на получение | server |
NodeNetworkTransmitErrors | Рост сетевых ошибок на передачу на хосте | rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 | 2m | warning | В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на передачу | server |
NodeNetworkInterfaceSaturated | Интерфейс сети на узле перегружен | (rate(node_network_receive_bytes_total{device!~"^tap.* | ^vnet.* | ^veth.* | ^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap. | ^vnet.* |
NodeClockSkew | Системное время на узле рассинхронизировано | (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0) | 10m | warning | Системное время на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} рассинхронизировано на более чем 0.05 секунд | server |
NodeClockNotSynchronising | Время на сервере не синхронизируется | (node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0) | 2m | warning | Время на сервере {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не синхронизируется | server |
SnmpDataNotReceived | Не поступают данные с устройства SNMP | up{job=~“snmp.*”} != 1 | 5m | critical | Не удалось собрать данные с SNMP-устройства, ПАК {{ $labels._pak_id }} | network |
SnmpLongSysUpTime | SNMP-устройство работает без перезапуска более 4 лет | sysUpTime > 126144000 | 2m | warning | SNMP-устройство {{ $labels._comm_id}} работает без перезапуска более 4 лет, ПАК {{ $labels._pak_id }} | network |
SnmpPortChangedState | Порт изменил своё состояние | delta(ifOperStatus[15m]) != 0 | 2m | critical | В последние 15 минут порт {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} изменил своё состояние. Возможно, он выключен или перезапущен | network |
SnmpHighInComingTraffic | Входящий трафик порта коммутатора приближается к пороговому значению | (rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 | 6m | info | Входящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности | network |
SnmpHighOutComingTraffic | Исходящий трафик порта коммутатора приближается к пороговому значению | (rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 | 6m | info | Исходящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности | network |
SnmpAnomalyTraffic | Замечено аномальное увеличение трафика | rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) | 12m | info | Замечено аномальное увеличение трафика коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} | network |
SnmpIncreaseInComingTrafficError | Рост количества ошибок на входящий трафик | rate(ifInErrors[4m]) > 10 | 6m | warning | Количество ошибок на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10 | network |
SnmpIncreaseOutComingTrafficError | Рост количества ошибок на исходящий трафик | rate(ifOutErrors[4m]) > 10 | 6m | warning | Количество ошибок на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10 | network |
SnmpIncreaseDiscardsInComingPacket | Рост количества отклонённых пакетов на исходящий трафик | rate(ifOutDiscards[4m]) > 10 | 6m | warning | Количество отклонённых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10 | network |
SnmpIncreaseDiscardsOutComingPacket | Рост количества отклонённых пакетов на входящий трафик | rate(ifInDiscards[4m]) > 10 | 6m | warning | Количество отклонённых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10 | network |
SnmpIncreaseInComingPacket | Большое количество передаваемых пакетов на входящий трафик | rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000 | 6m | info | Зафиксирован рост числа передаваемых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} | network |
SnmpIncreaseOutComingPacket | Большое количество передаваемых пакетов на исходящий трафик | rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000 | 6m | info | Зафиксирован рост числа передаваемых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} | network |
FanSpeedStateWarning | Датчик скорости вентилятора находится в состоянии предупреждения (IPMI) | ipmi_fan_speed_state == 1 | 3m | warning | Датчик скорости вентилятора находится в состоянии предупреждения | server |
FanSpeedStateCritical | Датчик скорости вентилятора информирует о критическом состоянии (IPMI) | ipmi_fan_speed_state == 2 | 3m | critical | Датчик скорости вентилятора информирует о критическом состоянии | server |
CertificateExpiresIn30Days | До истечения сертификата осталось 30 дней | certificate_expired < 30 |
5m | warning | У сервиса {{ $labels.server_name }} на ПАК {{ $labels._pak_id }} до истечения сертификата осталось {{ $value }} дней | func_service |
BondStatusNotActiveNegotiated | Бонд узла находится в некорректном состоянии | bond_status != 1 |
5m | warning | Бонд {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от active negotiated | server |
InterfaceStatusAttachedNotCurrent | Статус привязки физического интерфейса отличается от current attached | interface_status_attached != 1 |
5m | warning | Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от current attached | server |
InterfaceStatusNotEnabled | Физический интерфейс отключен | interface_status != 1 |
5m | warning | Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} отключен | server |
NodeDiskIOErrWarning | Наблюдаются ошибки ввода-вывода дискового устройства | rate(node_disk_iorequest_total[1m]) > 10 |
5m | warning | На дисковом устройстве {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} наблюдается рост ошибок ввода-вывода | server |
NodeInterfaceChanges | Замечены изменения в интерфейсе на сервере | delta(node_network_info) > 0 |
0s | warning | Замечены изменения в интерфейсе {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}, возможно, он перешёл в статус down | server |
NodeInterfaceMTUChanges | Изменился MTU сетевой карты | delta(node_network_mtu_bytes) > 0 |
0s | warning | Замечено изменение MTU сетевой карты {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} | server |
NodeHighTransmitPacketError | Высокая частота ошибок исходящих пакетов | node_network_transmit_errs_total_rate > 1000 |
5m | warning | Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла. | func_service |
2.2 МБД.КХ#
МБД.КХ предназначена для создания высокопроизводительных аналитических витрин с реляционным доступом на базе технологии ClickHouse (Arenadata QuickMarts).
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
ClickHouseServerProcessInfo | Отсутствует процесс сервера ClickHouse (МБД.КХ) | namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0 | 0m | info | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} отсутствует процесс сервера ClickHouse | func_service |
ClickHouseServerProcessWarning | Процесс сервера ClickHouse отсутствует более 5 минут (МБД.КХ) | namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0 | 5m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} процесс сервера ClickHouse отсутствует более 5 минут | func_service |
ClickHouseSimultaneousQueriesWarning | Количество одновременных запросов к БД ClickHouse достигло значения 90 (МБД.КХ) | clickhouse_simultaneous_queries > 90 | 5m | warning | Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 90 | func_service |
ClickHouseSimultaneousQueriesCritical | Количество одновременных запросов к БД ClickHouse достигло значения 100 (МБД.КХ) | clickhouse_simultaneous_queries >= 100 | 30s | critical | Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 100 | func_service |
ClickHouseReplicationStuckTasks | Имеются зависшие задачи репликации ClickHouse (МБД.КХ) | clickhouse_replication_stuck_task_count > 0 | 5m | warning | Имеются зависшие задачи репликации ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
ClickHouseZooKeeperStatus | ZooKeeper ClickHouse недоступен (МБД.КХ) | clickhouse_zookeeper_status == 0 | 0m | critical | ZooKeeper ClickHouse недоступен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
ClickHouseZooKeeperResponse | Время ответа ZooKeeper превысило 1000 микросекунд (МБД.КХ) | clickhouse_zookeeper_response_microseconds > 0 | 5m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} время ответа ZooKeeper превысило 1000 микросекунд | func_service |
ClickHouseZooKeeperOutstandingRequest | Количество ожидающих запросов ZooKeeper превысило 50 (МБД.КХ) | clickhouse_zookeeper_outstanding_request_count > 50 | 5m | warning | Количество ожидающих запросов ZooKeeper на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} превысило 50 | func_service |
ClickHouseReplicasMaxDelay | Превышение максимальной разницы в сек. между свежей репл. частью и свежей частью данных (МБД.КХ) | clickhouse_replicas_max_delay_seconds > 60 | 5m | warning | Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд. Узел {{ $labels._node_id}}, ПАК {{$labels._pak_id}} | func_service |
ClickHouseServerRestarted | ClickHouse был перезапущен (МБД.КХ) | clickhouse_uptime < clickhouse_uptime offset 1m | 0m | warning | ClickHouse был перезапущен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
Для мониторинга доступности узлов ClickHouse используется blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Пользователю предлагается настроить его самостоятельно по данному шаблону:
Название правила | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|
Отсутствует связь с сервером ClickHouse | probe_success{instance=“X:8123”} == 0 | 0m | info | Отсутствует связь с сервером ClickHouse | func_service |
Связь с сервером ClickHouse отсутствует более 5 минут | probe_success{instance=“X:8123”} == 0 | 5m | warning | Связь с сервером ClickHouse отсутствует более 5 минут | func_service |
Отсутствует связь с сервером реплики ClickHouse | probe_success{instance=“X:8123/replicas_status”} == 0 | 5m | warning | Отсутствует связь с сервером реплики ClickHouse | func_service |
2.3 МБД.Г#
МБД.Г предназначена для параллельной обработки и распределённого хранения структурированных данных, специально предназначенный для работы СУБД Arenadata.DB в высоконагруженных системах.
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
GreenplumHighConnectionsRatio | Количество текущих соединений Greenplum достигло 80% от возможного (МБД.Г) | greenplum_current_connections_ratio > 80 and greenplum_current_connections_ratio < 90 | 30m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество текущих соединений Greenplum достигло 80% от возможного | func_service |
GreenplumCriticalConnectionsRatio | Количество текущих соединений Greenplum достигло 90% от возможного (МБД.Г) | greenplum_current_connections_ratio > 90 | 30m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество текущих соединений Greenplum достигло 90% от возможного | func_service |
GreenplumHighSpillSize | Общий объем Spill-файлов Greenplum превысил 30 GB (МБД.Г) | greenplum_spill_size_total > 30 and greenplum_spill_size_total < 50 | 30m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} общий объем Spill-файлов Greenplum превысил 30 GB | func_service |
GreenplumCriticalSpillSize | Общий объем Spill-файлов Greenplum превысил 50 GB (МБД.Г) | greenplum_spill_size_total > 50 | 30m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} общий объем Spill-файлов Greenplum превысил 50 GB | func_service |
GreenplumMasterDown | Ведущий узел Greenplum находится в отключенном состоянии (МБД.Г) | greenplum_master_up == 0 | 0m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} ведущий узел Greenplum находится в отключенном состоянии | func_service |
GreenplumPrimarySegmentsDown | Имеются primary-сегменты Greenplum в статусе down (МБД.Г) | greenplum_primary_segments_down_count > 0 | 0m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} один и более primary-сегментов Greenplum находятся в статусе down | func_service |
GreenplumMirrorSegmentsDown | Имеются mirror-сегменты Greenplum в статусе down (МБД.Г) | greenplum_mirror_segments_down_count > 0 | 0m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} один и более mirror-сегментов Greenplum находятся в статусе down | func_service |
GreenplumPanicResetErrors | Имеются ошибки типа “Panic” и “Reset” в pg_log Greenplum (МБД.Г) | count_over_time(greenplum_pg_log_reset_panic== 1[1h]) > 1 | 0m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} за последний час в pg_log были зафиксированы ошибки типа Panic и Reset | func_service |
GreenplumLongActiveSessions | Имеются подключения к Greenplum, находящиеся в активном состоянии более часа (МБД.Г) | greenplum_active_session_for_hour_count > 0 | 5m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеются активные подключения к Greenplum, находящиеся в этом статусе более часа | func_service |
GreenplumLongSessions | Имеются подключения к Greenplum, находящиеся в своём состоянии более часа (МБД.Г) | greenplum_session_for_hour_count > 0 | 5m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеются подключения к Greenplum, не менявшие свой статус более часа | func_service |
GreenplumHighLocksCount | Имеется больше 10 блокировок в БД Greenplum (МБД.Г) | greenplum_locks_count > 10 and greenplum_locks_count < 20 | 0m | warning | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеется больше 10 блокировок в БД Greenplum | func_service |
GreenplumCriticalLocksCount | Имеется больше 20 блокировок в БД Greenplum (МБД.Г) | greenplum_locks_count > 20 | 0m | critical | На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеется больше 20 блокировок в БД Greenplum | func_service |
GreenplumHighPartitionRatio | Разделы Greenplum занимают более 80% доступного пространства (МБД.Г) | greenplum_partition_ratio > 80 and greenplum_partition_ratio < 90 | 30m | warning | Разделы Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} занимают {{ $value }}% доступного пространства | func_service |
GreenplumCriticalPartitionRatio | Разделы Greenplum занимают более 90% доступного пространства (МБД.Г) | greenplum_partition_ratio > 90 | 30m | critical | Разделы Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} занимают {{ $value }}% доступного пространства | func_service |
GreenplumWrongClusterStatus | Greenplum не находится в обычном одиночном или многопользовательском режиме (МБД.Г) | greenplum_cluster_status != 1 and greenplum_cluster_status != 0 | 0m | critical | Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} находится в режиме {{ $value }} | func_service |
GreenplumOldLogCount | Имеются файлы pg_log старше 3 месяцев (МБД.Г) | greenplum_pg_log_three_month_old_count > 0 | 0m | warning | Есть файлы pg_log Greenplum старше 3 месяцев на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
GreenplumVeryOldLogCount | Количество записей с уровнем “ERROR” и “FATAL” в pg_log за текущий день превысило 100 (МБД.Г) | greenplum_pg_log_errors_fatal > 100 and greenplum_pg_log_errors_fatal < 300 | 0m | warning | В pg_log (Greenplum) на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество записей с уровнем ERROR и FATAL больше 100 | func_service |
GreenplumFatalLogErrors | В pg_log количество записей с уровнем ERROR и FATAL больше 300 (МБД.Г) | greenplum_pg_log_errors_fatal > 300 | 0m | critical | Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} за текущий день превысило 300 | func_service |
2.4 МБД.Х#
МБД.Х предназначена для обработки больших данных c применением технологий экосистемы Hadoop.
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
HadoopWarningMemHeapUsed | Объём используемой памяти heap занимает более 70% от макс. значения (МБД.Х) | ((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.7 and (hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) < 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.7 and (hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) < 0.9) | 5m | warning | Объём используемой памяти heap БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 70% от максимального значения | func_service |
HadoopCriticalMemHeapUsed | Объём используемой памяти heap занимает более 90% от макс. значения (МБД.Х) | ((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.9) | 5m | critical | Объём используемой памяти heap БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 90% от максимального | func_service |
HadoopWarningCapacityUsed | Общий объём используемого пространства для хранения данных занимает 70% от макс. значения (МБД.Х) | (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.7 and (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) < 0.9 | 5m | warning | Общий объём используемого пространства для хранения данных БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает 70% от максимального значения | func_service |
HadoopCriticalCapacityUsed | Общий объём используемого пространства для хранения данных занимает 90% от макс. значения (МБД.Х) | (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.9 | 5m | critical | Общий объём используемого пространства для хранения данных БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает 90% от максимального значения | func_service |
HadoopMissingBlocks | Имеются недостающие блоки данных (МБД.Х) | hadoop_f_s_namesystem_missing_blocks > 0 | 1m | critical | На хосте {{ $labels.host }} кластера {{ $labels.cluster}} имеются недостающие блоки данных БД Hadoop | func_service |
HadoopWarningNonHeapMemoryUsage | Используемый объём памяти для non-heap областей в JVM занимает более 70% от макс. значения (МБД.Х) | (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.7 and (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) < 0.9 | 5m | warning | Объём памяти для non-heap областей в JVM БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 70% от максимального значения | func_service |
HadoopCriticalNonHeapMemoryUsage | Используемый объём памяти для non-heap областей в JVM занимает более 90% от макс. значения (МБД.Х) | (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.9 | 5m | critical | Объём памяти для non-heap областей в JVM БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} занимает более 70% от максимального значения | func_service |
HadoopWarningAllocatedVCores | Количество выделенных ядер достигает более 70% от макс. значения (МБД.Х) | (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.7 and (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) < 0.9 | 5m | warning | Количество выделенных ядер БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 70% от максимального значения | func_service |
HadoopCriticalAllocatedVCores | Количество выделенных ядер достигает более 90% от макс. значения (МБД.Х) | (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.9 | 5m | critical | Количество выделенных ядер БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 90% от максимального значения | func_service |
HadoopWarningAllocatedGB | Количество выделенной памяти в ГБ достигает более 70% от макс. значения (МБД.Х) | (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.7 and (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) < 0.9 | 5m | warning | Количество выделенной памяти в ГБ БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 70% от максимального значения | func_service |
HadoopCriticalAllocatedGB | Количество выделенной памяти в ГБ достигает более 90% от макс. значения (МБД.Х) | (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.9 | 5m | critical | Количество выделенной памяти в ГБ БД Hadoop на хосте {{ $labels.host }} кластера {{ $labels.cluster}} достигает более 90% от максимального значения | func_service |
2.5 МБД.С#
МБД.С предназначена для потоковой обработки данных в реальном времени на основе Apache Kafka & Niagara Files (Nifi).
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
KafkaMaxLag | Наблюдается рост максимальной задержки Kafka (МБД.С) | increase(kafka_replica_manager_max_lag[5m]) > 0 | 0s | critical | Наблюдается рост максимальной задержки Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} в течение пяти минут | func_service |
KafkaOfflineReplica | Более одной реплики Kafka находится в состоянии Offline (МБД.С) | kafka_replica_manager_offline_replica_count > 1 | 0s | critical | Более одной реплики Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} находится в состоянии Offline | func_service |
KafkaOfflinePartitions | Имеется более одной недоступной партиции Kafka (МБД.С) | kafka_controller_offline_partitions_count > 1 | 0s | critical | Имеется более одной недоступной для чтения и записи партиции на хосте {{ $labels.host }} кластера {{ $labels.cluster}} | func_service |
KafkaWarningHeapMemoryUsage | Использовано более 70% объёма динамической памяти Kafka (МБД.С) | (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.7 and (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) < 0.9 | 5m | warning | Использовано более 70% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}} | func_service |
KafkaCriticalHeapMemoryUsage | Использовано более 90% объёма динамической памяти Kafka (МБД.С) | (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.9 | 5m | critical | Использовано более 90% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}} | func_service |
KafkaZooKeeperExpires | Имеется более одного истёкшего срока действия сеанса ZooKeeper (МБД.С) | kafka_session_zookeeper_expires_per_sec{rate=“Count”} > 1 | 0s | critical | Имеется более одного истёкшего срока действия сеанса ZooKeeper на хосте {{ $labels.host }} кластера {{ $labels.cluster}} | func_service |
2.6 МБД.Т#
МБД.Т предназначена для развертывания высокопроизводительных программных систем на основе резидентной СУБД Picodata.
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
PicodataReadOnlyState | Инстанс Picodata находится в режиме только для чтения | tnt_read_only == 1 | 0m | critical | Инстанс Picodata {{$labels.instance}} ПАК {{$labels._pak_id}} находится в режиме только для чтения | func_service |
PicodataElectionState | Узел Picodata задействован в выборе лидера и принял соответствующее состояние | tnt_election_state == 1 | 0m | critical | Узел Picodata {{$labels.instance}} ПАК {{$labels._pak_id}} задействован в выборе лидера и принял соответствующее состояние | func_service |
Для всех метрик Picodata нельзя определить универсальные значения, по которым нужно оповещать пользователя, поэтому предлагается шаблон, который позволяет пользователю создать собственные правила оповещения и выставить интересующие значения в зависимости от развёрнутого инстанса:
Название правила | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|
Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение | tnt_cpu_user_time > X | 10m | warning | Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение | func_service |
Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение | tnt_cpu_system_time > X | 10m | warning | Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение | func_service |
Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение | tnt_slab_arena_used > X | 10m | warning | Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение | func_service |
Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение | tnt_slab_arena_used_ratio > X | 10m | warning | Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение | func_service |
Объем данных, хранимых в файлах Picodata, превысил допустимое значение | tnt_vinyl_disk_data_size > X | 10m | warning | Объем данных, хранимых в файлах Picodata, превысил допустимое значение | func_service |
Объем индекса, хранимого в файлах Picodata, превысил допустимое значение | tnt_vinyl_disk_index_size > X | 10m | warning | Объем индекса, хранимого в файлах Picodata, превысил допустимое значение | func_service |
Размер индексов страниц данного инстанса Picodata превысил допустимое значение | tnt_vinyl_memory_page_index > X | 10m | warning | Размер индексов страниц данного инстанса Picodata превысил допустимое значение | func_service |
Общее количество запросов Picodata превысило допустимое значение | tnt_net_requests_total > X | 10m | warning | Общее количество запросов Picodata превысило допустимое значение | func_service |
Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение | tnt_net_requests_in_progress_current > X | 10m | warning | Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение | func_service |
Общее количество соединений с Picodata превысило допустимое значение | tnt_net_connections_total > X | 10m | warning | Общее количество соединений с Picodata превысило допустимое значение | func_service |
Текущее количество соединений с Picodata превысило допустимое значение | tnt_net_connections_current > X | 10m | warning | Текущее количество соединений с Picodata превысило допустимое значение | func_service |
Общее количество освобожденной памяти Picodata превысило допустимое значение | lj_gc_freed_total > | 10m | warning | Общее количество освобожденной памяти Picodata превысило допустимое значение | func_service |
Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение | lj_gc_steps_pause_total > X | 10m | warning | Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение | func_service |
Количество фиксаций транзакций в Picodata превысило допустимое значение | tnt_vinyl_tx_commit > X | 10m | warning | Количество фиксаций транзакций в Picodata превысило допустимое значение | func_service |
Количество откатов транзакций в Picodata превысило допустимое значение | tnt_vinyl_tx_rollback > X | 10m | warning | Количество откатов транзакций в Picodata превысило допустимое значение | func_service |
Количество потоков на инстансе Picodata превысило допустимое значение | tnt_fiber_amount > X | 10m | warning | Количество потоков на инстансе Picodata превысило допустимое значение | func_service |
Объём используемой памяти потоков Picodata превысил допустимое значение | tnt_fiber_memused > X | 10m | warning | Объём используемой памяти потоков Picodata превысил допустимое значение | func_service |
2.7 МБД.П#
МБД.П предназначенна для обработки и хранения данных, специально оптимизирована для работы СУБД PostgreSQL в высоконагруженных системах.
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
EraDiskNotAvailable | Диск ERA RAID недоступен (МБД.П) | era_disk_state == 0 | 4h | critical | Диск {{ $labels.device_name }} RAID’а {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraCouldNotReconstruct | ERA RAID не может завершить реконструкцию (МБД.П) | era_raid_state_initialization == 10 | 1h | critical | RAID {{ $labels.raid_name }} не может завершить реконструкцию, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraCouldNotRecover | ERA RAID не смог восстановиться (МБД.П) | era_raid_state_initialization == 11 | 1h | critical | RAID {{ $labels.raid_name }} не смог восстановиться, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraInitialNeeds | ERA RAID нуждается в инициализации (МБД.П) | era_raid_state_initialization == 2 | 30m | warning | RAID {{ $labels.raid_name }} нуждается в инициализации, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraReconstructNeeds | ERA RAID нуждается в реконструкции (МБД.П) | era_raid_state_initialization == 7 | 4h | critical | RAID {{ $labels.raid_name }} нуждается в реконструкции, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraNotAvailable | ERA RAID недоступен (МБД.П) | era_raid_state_availability == 0 | 30m | critical | RAID {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraHighDiskWear | Существенный износ диска (МБД.П) | era_disk_wear > 75 | 24h | warning | Существенный износ диска {{ $labels.device_name }} RAID’а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraCriticalDiskWear | Критический износ диска (МБД.П) | era_disk_wear > 90 | 4h | critical | Критический износ диска {{ $labels.device_name }} RAID’а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraLicenseExpire | Месяц до истечения лицензии ERA (МБД.П) | ((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7) | 0s | warning | До истечения срока действия лицензии с ключом {{ $labels.license_key }} остался месяц, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraLicenseExpireSoon | Неделя до истечения лицензии ERA (МБД.П) | ((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1 | 0s | critical | До истечения срока действия лицензии с ключом {{ $labels.license_key }} осталась неделя, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
EraLicenseNotActive | Лицензия неактивна (МБД.П) | era_license_status != 1 | 0s | critical | Лицензия с ключом {{ $labels.license_key }} неактивна, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }} | storage |
SpectrumHighAutovacuumProcCount | Активных процессов автовакуума больше 3 (МБД.П) | spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6 | 1m | warning | Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 3 | func_service |
SpectrumCriticalAutovacuumProcCount | Активных процессов автовакуума больше 6 (МБД.П) | spectrum_autovacuum_proc_count > 6 | 1m | warning | Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 6 (PG) | func_service |
PostgresHighActiveSessionsCount | Количество активных сессий достигло 100 (МБД.П) | pg_stat_activity_count > 100 and pg_stat_activity_count < 500 | 30s | warning | Количество активных сессий достигло 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
PostgresCriticalActiveSessionsCount | Количество активных сессий достигло 500 (МБД.П) | pg_stat_activity_count > 500 | 30s | critical | Количество активных сессий достигло 500 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
PostgresHighReplicationLag | Лаг репликации достиг значения 50 (МБД.П) | pg_replication_lag > 50 and pg_replication_lag < 100 | 5m | warning | Лаг репликации достиг значения 50 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
PostgresCriticalReplicationLag | Лаг репликации достиг значения 100 (МБД.П) | pg_replication_lag > 100 | 5m | critical | Лаг репликации достиг значения 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
PostgresHighDatabaseTemp | Используется более 50 GB TEMP (МБД.П) | pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100 | 5m | warning | Используется более 50 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
PostgresCriticalDatabaseTemp | Используется более 100 GB TEMP (МБД.П) | pg_stat_database_temp_bytes > 100 | 5m | critical | Используется более 100 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} | func_service |
RaidixNetworkVipDown | VIP Raidix находится в выключенном состоянии | raidix_network_vip_up != 1 | 5m | warning | VIP Raidix {{ $labels.vip_address }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в выключенном состоянии | server |
RaidixDriveIsDirty | Имеются метаданные другого Raid на диске | raidix_drive_dirty > 0 | 5m | warning | На диске {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеются метаданные с кодом {{ $labels.dirty_code }} | server |
RaidixDcPassive | DC Raid находится в состоянии Passive | raidix_raid_dc_status != 0 | 5m | warning | DC у Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии Passive | server |
RaidixRaidDown | Raid находится в состоянии, отличном от Online | raidix_raid_status != 1 | 5m | warning | Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от Online | server |
RaidixRaidDegraded | Raid находится в состоянии degraded | raidix_raid_degraded > 0 | 5m | warning | Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии degraded, значение {{ $value }} | server |
RaidixRaidShareBadStatus | Raid имеет проблемы с общими ресурсами | raidix_raid_share_status != 1 | 5m | warning | Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеет проблемы с общими ресурсами | server |
2.8 МВ.ДИ#
МВ.ДИ предназначена для создания частного облака с возможностями виртуализации и управления контейнерами, в основе машины - программный продукт Базис.DynamiX
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
LibvirtDomainMemoryWarning | Процент использования памяти доменом Libvirt достиг 80% (МВ.ДИ) | libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90 | 5m | warning | У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}% |
LibvirtDomainMemoryCritical | Процент использования памяти доменом Libvirt достиг 90% (МВ.ДИ) | libvirt_domain_memory_stats_used_percent > 90 | 5m | critical | У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}% |
BVSStatusCritical | Узел BVS МВ.ДИ находится в статусе, отличном от Online | dynamix_bvs_node_status!=1 | 0m | critical | Узел BVS {{ $labels._node_id }} ПАКа {{ $labels._pak_id }} находится в статусе {{ $value }} | server |
KubernetesNodeStatusNotReady | Узел K8S находится в статусе, отличном от Ready (МВ.ДИ) | k8s_node_status{condition!=“Ready”}==1 | 5m | critical | Узел {{ $labels.name }} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
KubernetesPodStatusFailed | Под K8S находится в статусе Failed (МВ.ДИ) | k8s_pod_status==0 | 5m | critical | Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе Failed | func_service |
KubernetesPodStatusNotRunning | Под K8S находится в статусе, отличном от Running (МВ.ДИ) | k8s_pod_status != 0 and k8s_pod_status != 1 | 5m | warning | Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }} | func_service |
KubernetesComponentStatusNotTrue | Компонент K8S находится в статусе, отличном от True (МВ.ДИ) | k8s_component_status!=1 | 5m | critical | Компонент {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }} | func_service |
DynamixVMTechStatusWarning | Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе | dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7 | 0m | warning | Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе {{ $value }} | func_service |
DynamixVMTechStatusCritical | Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN | dynamix_vm_tech_status == 7 | 0m | critical | Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе DOWN | func_service |
DynamixVMWorkingStatusWarning | Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности | dynamix_vm_status != 1 and dynamix_vm_status != 0 | 0m | warning | Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }} | func_service |
DynamixNodeStatusWarning | Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности | dynamix_node_status != 1 and dynamix_node_status != 0 | 0m | warning | Узел Dynamix {{ $labels.node_name }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }} | func_service |
TatlinDiskStatusWarning | Диск СХД Татлин находится в статусе Warning | tatlinHwDiskStateCode == 3 | 5m | warning | Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinDiskStatusError | Диск СХД Татлин находится в статусе Error | tatlinHwDiskStateCode == 2 | 5m | critical | Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinDiskStatusInfo | Диск СХД Татлин находится в статусе Info | tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3 | 5m | info | Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinDiskBayFailure | Дисковая полка Татлин находится в статусе Error | tatlinHwDiskbayStateCode != 1 | 5m | critical | Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinDiskBayLost | Потеряна связь с дисковой полкой СХД Татлин | lag(tatlinHwDiskbaySn{}[2h]) > 15m | 0s | critical | Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinEthernetPortWarning | Порт Ethernet СХД Татлин находится в статусе Warning | tatlinHwEthStateCode == 3 | 5m | warning | Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage, network |
TatlinEthernetPortError | Порт Ethernet СХД Татлин находится в статусе Error | tatlinHwEthStateCode == 2 | 5m | critical | Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage, network |
TatlinEthernetPortInfo | Порт Ethernet СХД Татлин находится в статусе info | tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3 | 5m | info | Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage, network |
TatlinFibreChannelPortWarning | Порт Fibre Channel СХД Татлин находится в статусе Warning | tatlinHwFcStateCode == 3 | 5m | warning | Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage, network |
TatlinFibreChannelPortError | Порт Fibre Channel СХД Татлин находится в статусе Error | tatlinHwFcStateCode == 2 | 5m | critical | Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage, network |
TatlinFibreChannelPortInfo | Порт Fibre Channel СХД Татлин находится в статусе Info | tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3 | 5m | info | Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage, network |
TatlinReplicationManagementNetworkCritical | Сеть управления репликациями СХД Татлин находится в статусе Failure | tatlinConfigReplicationStorageMgmtNetwork == 4 | 5m | critical | Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinReplicationNetworkCritical | Сеть репликаций СХД Татлин находится в статусе Failure | tatlinConfigReplicationStorageReplicationNetwork != 1 | 5m | critical | Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinPoolFreeSpaceRunningOutWarning | Заканчивается свободное место СХД Татлин | tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold | 30m | warning | {{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinPoolFreeSpaceRunningOutCritical | Свободное место СХД Татлин почти закончилось | tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold | 30m | critical | {{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinResourceFreeSpaceRunningOutCritical | Свободное место ресурса СХД Татлин почти закончилось | (tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType=“thin”}, “tatlinConfigResPool”, “$1”, “tatlinConfigPoolName”, “(.)”)) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType=“thin”}, “tatlinConfigResPool”, “$1”, “tatlinConfigPoolName”, “(.)”)) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType=“thin”}, “tatlinConfigResPool”, “$1”, “tatlinConfigPoolName”, “(.*)”)) | 30m | critical | {{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinDriveCapacityFailure | Ошибка объёма накопителя СХД Татлин | tatlinConfigDriveFailed > 0 | 30m | critical | {{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinDriveFailed | Имеются ошибки накопителя СХД Татлин | tatlinConfigDriveFailedCount > 0 | 30m | critical | Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
TatlinPoolOversubscription | Пул СХД Татлин находится в состоянии избыточного выделения ресурсов | 100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, ’tatlinConfigPoolName’, ’tatlinConfigResPool’)) > 100 | 30m | critical | У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) |
TatlinNoResponse | СХД Татлин не отвечает по SNMP | lag(tatlinVersion{}[2h]) > 15m | 0s | critical | СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }} |
TatlinCPUUtilizationWarning | Загрузка процессора СХД Татлин достигла 90% | (100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95) | 5m | warning | Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}% | storage |
TatlinCPUUtilizationCritical | Загрузка процессора СХД Татлин достигла 95% | 100 - tatlinPerfCpuIdle >= 95 | 2m | critical | Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}% | storage |
StorageProcessorFailure | Ошибка процессора СХД Татлин | tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0 | 5m | critical | Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) | storage |
2.9 МВ.С#
МВ.С предназначена для создания горизонтально масштабируемой и отказоустойчивой инфраструктуры виртуализации.
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
MVSClickHouseDown | БД ClickHouse кластера не работает (МВ.С) | mvs_clickhouse_up!=1 | 5m | critical | БД ClickHouse МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
MVSClickHouseDisabled | БД ClickHouse кластера выключена (МВ.С) | mvs_clickhouse_enabled!=1 | 5m | critical | БД ClickHouse МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
MVSDBReadStateFailure | Основная БД кластера недоступна для чтения (МВ.С) | mvs_db_read_state!=1 | 5m | critical | Основная БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
MVSDBWriteStateFailure | Основная БД кластера недоступна для записи (МВ.С) | mvs_db_write_state!=1 | 5m | critical | Основная БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
MVSInMemDBReadStateFailure | In-memory БД кластера недоступна для чтения (МВ.С) | mvs_memdb_read_state!=1 | 5m | critical | In-memory БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
MVSInMemDBWriteStateFailure | In-memory БД кластера недоступна для записи (МВ.С) | mvs_memdb_write_state!=1 | 5m | critical | In-memory БД МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }} | func_service |
MVSRedisSubjectiveUnavailable | Сервер Redis недоступен с точки зрения текущего хоста (МВ.С) | mvs_redis_server_subjective_status!=1 | 5m | critical | Сервер Redis МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен с точки зрения текущего хоста | func_service |
MVSRedisObjectiveUnavailable | Сервер Redis недоступен с точки зрения кластера (МВ.С) | mvs_redis_server_objective_status!=1 | 5m | critical | Сервер Redis МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен с точки зрения кластера | func_service |
MVSRedisMasterConnectionFailure | Сервер Redis не подключен к мастеру (МВ.С) | mvs_redis_server_master_connection!=1 | 5m | critical | Сервер Redis МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} не подключен к мастеру | func_service |
MVSSentinelFailure | Сервер Sentinel недоступен (МВ.С) | mvs_sentinel_status!=1 | 5m | critical | Сервер Sentinel МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен | func_service |
MVSVIPFailure | Виртуальный IP недоступен (МВ.С) | mvs_vip_status!=1 | 5m | critical | Виртуальный IP МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен | func_service |
MVSBackendFailure | Сервер бэкенда недоступен (МВ.С) | mvs_backend_status!=1 | 5m | critical | Сервер бэкенда МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен | func_service |
MVSManagementFailure | Узел управления недоступен (МВ.С) | mvs_manager_status!=1 | 5m | critical | Узел управления МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен | func_service |
MVSAgentFailure | Клиентский узел недоступен (МВ.С) | mvs_agent_status!=1 | 5m | critical | Клиентский узел МВ.С по адресу {{$labels.ip_address}} ПАКа {{ $labels._pak_id }} недоступен | func_service |
MVSClusterFailure | Кластер МВ.С недоступен | mvs_cluster_status!=1 | 5m | critical | Кластер МВ.С ПАКа {{ $labels._pak_id }} недоступен | func_service |
VStorageNotHealthy | Хранилище МВ.С недоступно | vstorage_status!=1 | 5m | critical | Хранилище {{$labels.cluster_name}} МВ.С ПАКа {{ $labels._pak_id }} недоступно | func_service |
2.10 МХД.О#
Название правила | Краткое описание | PromQL выражение | Период | Важность | Шаблон | Категории |
---|---|---|---|---|---|---|
ServerProxyHttpFailsCritical | Ошибок 5хх более 1 процента в минуту | s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) >= 1 |
1m | critical | Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту. | func_service |
ServerProxyHttpFailsWarning | Ошибок 5хх от 0.1 до 1 процента в минуту | (s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) > 0.1) AND (s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) < 1) |
1m | warning | Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх в интервале от 0.1 до 1% от общего числа запросов в минуту. | func_service |
ServerProxyHttpFailsInfo | Ошибок 5хх менее 0.1 процента в минуту | s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) < 0.1 |
1m | info | Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх менее 0.1% от общего числа запросов в минуту. | func_service |
ServerControlHttpFailsCritical | Ошибок 5хх более 1 процента в минуту | s3gw_control_http_response{code=~"5.*"}*100/sum(s3gw_control_http_response) >= 1 |
1m | critical | Количество запросов на control {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту. | func_service |
LicenceCapacityUtilizationWarning | Утилизация лицензий превысила 85% | (vstorage_space_free*100/vstorage_license_capacity >= 85) AND (vstorage_space_free*100/vstorage_license_capacity < 95) |
1m | info | Утилизация лицензий МХДО превысила 85% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
LicenceCapacityUtilizationAlarm | Утилизация лицензий превысила 95% | (vstorage_space_free*100/vstorage_license_capacity >= 95) AND (vstorage_space_free*100/vstorage_license_capacity < 99) |
1m | warning | Утилизация лицензий МХДО превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
LicenceCapacityUtilizationCritical | Утилизация лицензий превысила 99% | vstorage_space_free*100/vstorage_license_capacity >= 99 |
1m | critical | Утилизация лицензий МХДО превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
LicenceExpirationWarning | До истечения лицензий МХДО менее 30 дней | (vstorage_license_expiration_ts*1000 <= 30) AND (vstorage_license_expiration_ts*1000 > 14) |
1m | info | До истечения лицензий МХДО менее 30 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
LicenceExpirationAlarm | До истечения лицензий МХДО менее 14 дней | (vstorage_license_expiration_ts*1000 <= 14) AND (vstorage_license_expiration_ts*1000 > 7) |
1m | warning | До истечения лицензий МХДО менее 14 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
LicenceExpirationCritical | До истечения лицензий МХДО менее 7 дней | vstorage_license_expiration_ts*1000 <= 7 |
1m | critical | До истечения лицензий МХДО менее 7 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
ActiveServicesReduced_ACC | Уменьшилось количество активных ACC сервисов | s3cluster_volume_service_configured_count{svc_type="ACC"} - s3cluster_volume_service_count{svc_type="ACC"} > 0 |
1m | warning | Количество активных сервисов ACC уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
ActiveServicesReduced_OS | Уменьшилось количество активных OS сервисов | s3cluster_volume_service_configured_count{svc_type="OS"} - s3cluster_volume_service_count{svc_type="OS"} > 0 |
1m | warning | Количество активных сервисов OS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
ActiveServicesReduced_NS | Уменьшилось количество активных NS сервисов | s3cluster_volume_service_configured_count{svc_type="NS"} - s3cluster_volume_service_count{svc_type="NS"} > 0 |
1m | warning | Количество активных сервисов NS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
ActiveServicesReduced_GW | Уменьшилось количество активных GW сервисов | s3cluster_volume_service_configured_count{svc_type="GW"} - s3cluster_volume_service_count{svc_type="GW"} > 0 |
1m | warning | Количество активных сервисов GW уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
HaproxyFrontendBytesInTotal | Отсутствие входящего трафика haproxy в течении 5 минут | sum(rate(haproxy_frontend_bytes_in_total[5m])*8) by (instance) == 0 |
5m | warning | Отсутствие входящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
HaproxyFrontendBytesOutTotal | Отсутствие исходящего трафика haproxy в течении 5 минут | sum(rate(haproxy_frontend_bytes_out_total[5m])*8) by (instance) == 0 |
5m | warning | Отсутствие исходящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | func_service |
SystemUnitS3GatewayCompressionServerStoped | Остановка сервиса s3gateway-compression-server.service | systemd_unit_state{name="s3gateway-compression-server.service"} != 1 |
1m | critical | Произошла остановка сервиса s3gateway-compression-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayControlServerStoped | Остановка сервиса s3gateway-control-server.service | systemd_unit_state{name="s3gateway-control-server.service"} != 1 |
1m | critical | Произошла остановка сервиса s3gateway-control-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayProxyServerStoped | Остановка сервиса s3gateway-proxy-server.service | systemd_unit_state{name="s3gateway-proxy-server.service"} != 1 |
1m | critical | Произошла остановка сервиса s3gateway-proxy-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayOstorServerStoped | Остановка сервиса s3gateway-ostor-server.service | systemd_unit_state{name="s3gateway-ostor-server.service"}!= 1 |
1m | critical | Произошла остановка сервиса s3gateway-ostor-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitNginxStoped | Остановка сервиса nginx.service | systemd_unit_state{name="nginx.service"}!= 1 |
1m | critical | Произошла остановка сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitPostgresStoped | Остановка сервиса postgres.server | systemd_unit_state{name="postgres.service"}!= 1 |
1m | critical | Произошла остановка сервиса postgres.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitKeepalivedStoped | Остановка сервиса keepalived.service | systemd_unit_state{name="keepalived.service"}!= 1 |
1m | critical | Произошла остановка сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitHaproxyStoped | Остановка сервиса haproxy.service | systemd_unit_state{name="haproxy.service"}!= 1 |
1m | critical | Произошла остановка сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitChronydStoped | Остановка сервиса chronyd.service | systemd_unit_state{name="chronyd.service"}!= 1 |
1m | critical | Произошла остановка сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitPacemakerStoped | Остановка сервиса pacemaker.service | systemd_unit_state{name="pacemaker.service"}!= 1 |
1m | critical | Произошла остановка сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitOstorCfgdStoped | Остановка сервиса ostor-cfgd.service | systemd_unit_state{name="ostor-cfgd.service"}!= 1 |
1m | critical | Произошла остановка сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitOstorAgentdStoped | Остановка сервиса ostor-agentd.service | systemd_unit_state{name="ostor-agentd.service"}!= 1 |
1m | critical | Произошла остановка сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitVstorageCsdStoped | Остановка сервиса вида vstorage-csd.X.X.service | systemd_unit_state{name=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1 |
1m | critical | Произошла остановка сервиса vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitVstorageMdsdStoped | Остановка сервиса вида vstorage-mdsd.X.X.service | systemd_unit_state{name=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1 |
1m | critical | Произошла остановка сервиса vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitVstorageShamanStoped | Остановка сервиса вида vstorage-shaman@.X.service | systemd_unit_state{name=~"shaman@[a-zA-Z0-9]+\\.service"}!= 1 |
1m | critical | Произошла остановка сервиса vstorage-shaman@.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayCompressionServerRestart | Перезапуск сервиса s3gateway-compression-server.service | (systemd_service_uptime{service="s3gateway-compression-server.service"} < systemd_service_uptime{service="s3gateway-compression-server.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса s3gateway-compression.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayControlServerRestart | Перезапуск сервиса s3gateway-control-server.service | (systemd_service_uptime{service="s3gateway-control-server.service"} < systemd_service_uptime{service="s3gateway-control-server.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса s3gateway-control.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayProxyServerRestart | Перезапуск сервиса s3gateway-proxy-server.service | (systemd_service_uptime{service="s3gateway-proxy-server.service"} < systemd_service_uptime{service="s3gateway-proxy-server.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса s3gateway-proxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitS3GatewayOstorServerRestart | Перезапуск сервиса s3gateway-ostor-server.service | (systemd_service_uptime{service="s3gateway-ostor-server.service"} < systemd_service_uptime{service="s3gateway-ostor-server.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса s3gateway-ostore.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitNginxRestart | Перезапуск сервиса nginx.service | (systemd_service_uptime{service="nginx.service"} < systemd_service_uptime{service="nginx.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitPostgresRestart | Перезапуск сервиса postgres.server | (systemd_service_uptime{service="postgres.server"} < systemd_service_uptime{service="postgres.server"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса postgres.server на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitKeepalivedRestart | Перезапуск сервиса keepalived.service | (systemd_service_uptime{service="keepalived.service"} < systemd_service_uptime{service="keepalived.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitHaproxyRestart | Перезапуск сервиса haproxy.service | (systemd_service_uptime{service="haproxy.service"} < systemd_service_uptime{service="haproxy.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitChronydRestart | Перезапуск сервиса chronyd.service | (systemd_service_uptime{service="chronyd.service"} < systemd_service_uptime{service="chronyd.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitPacemakerRestart | Перезапуск сервиса pacemaker.service | (systemd_service_uptime{service="pacemaker.service"} < systemd_service_uptime{service="pacemaker.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitOstorCfgdRestart | Перезапуск сервиса ostor-cfgd.service | (systemd_service_uptime{service="ostor-cfgd.service"} < systemd_service_uptime{service="ostor-cfgd.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitOstorAgentdRestart | Перезапуск сервиса ostor-agentd.service | (systemd_service_uptime{service="ostor-agentd.service"} < systemd_service_uptime{service="ostor-agentd.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitVstorageMsdRestart | Перезапуск сервиса вида vstorage-mdsd.X.X.service | (systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса вида vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitVstorageCsdRestart | Перезапуск сервиса вида vstorage-csd.X.X.service | (systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса вида vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
SystemUnitVstorageShamanRestart | Перезапуск сервиса вида vstorage-shaman@X.service | (systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} < systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} offset 1m) == 1 |
1m | warning | Произошел перезапуск сервиса вида vstorage-shaman@X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} | server |
NodeStuckIORequests | Застрявшие запросы ввода-вывода на узле | fused_stuck_reqs_30s > 0 or fused_stuck_reqs_10s > 0 | 1m | critical | Некоторые запросы ввода-вывода застряли на узле {{ $labels._node_id }}. | func_service |
ClusterBlockedReplication | Заблокированная или медленная репликация в кластере | increase(mdsd_cluster_replication_stuck_chunks[5m]) > 0 or increase(mdsd_cluster_replication_touts_total[5m]) > 0 | 1m | critical | Репликация чанков заблокирована или слишком медленная. | func_service |
NodeFailedMapRequests | Неудавшиеся запросы карты на узле | fused_maps_failed > 0 or rate(fused_map_failures_total[5m]) > 0 | 1m | critical | Некоторые запросы карты на узле {{ $labels._node_id }} завершились неудачно. | func_service |
ClusterTooManyChunks | Слишком много чанков в кластере | 15000000 > mdsd_fs_chunk_maps_sum > 10000000 | 1m | warning | В кластере слишком много чанков, что замедляет работу службы метаданных. | func_service |
ClusterCriticallyHighChunks | Критически большое количество чанков в кластере | mdsd_fs_chunk_maps_sum >= 15000000 | 1m | critical | В кластере слишком много чанков, что замедляет работу службы метаданных. | func_service |
ClusterTooManyFiles | Слишком много файлов в кластере | 10000000 > mdsd_fs_files_sum > 4000000 | 1m | warning | В кластере слишком много файлов, что замедляет работу службы метаданных. | func_service |
ClusterCriticallyHighFiles | Критически большое количество файлов в кластере | mdsd_fs_files_sum >= 10000000 | 1m | critical | В кластере слишком много файлов, что замедляет работу службы метаданных. | func_service |
MetadataServiceHighCommitLatency | Высокая задержка коммитов службы метаданных | 5 > histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) > 1 | 1m | warning | Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 1 секунды. | func_service |
MetadataServiceCriticallyHighLatency | Критически высокая задержка коммитов службы метаданных | histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) >= 5 | 1m | critical | Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 5 секунд. | func_service |
ClusterOfflineChunkServices | Оффлайн службы чанков в кластере | sum(mdsd_cs_status_value{status=“offline”}) > 0 | 1m | warning | Некоторые службы чанков находятся в оффлайн. Проверьте и перезапустите их. | func_service |
ClusterFailedChunkServices | Неисправные службы чанков в кластере | sum(mdsd_cs_status_value{status=“failed”}) + sum(mdsd_cs_status_value{status=“failed rel”}) > 0 | 1m | warning | Некоторые службы чанков завершились с ошибкой. Это может быть вызвано сбоем физического диска. | func_service |
ClusterUnavailableMetadataServices | Недоступные службы метаданных в кластере | count(up{service=“MDS”}) - sum(up{service=“MDS”}) > 0 | 1m | warning | Некоторые службы метаданных находятся в оффлайн или завершились с ошибкой. Проверьте и перезапустите их. | func_service |
ClusterLowPhysicalSpace | Нехватка физического пространства в кластере | label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), “object_id”, “tier-$1”, “tier”, “(.*)”) < 0.2 | 1m | warning | Осталось мало свободного физического пространства на уровне хранения {{ $labels.tier }}. | func_service |
ClusterOutOfPhysicalSpace | Исчерпание физического пространства в кластере | label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), “object_id”, “tier-$1”, “tier”, “(.*)”) < 0.1 | 1m | critical | Недостаточно свободного физического пространства на уровне хранения {{ $labels.tier }}. | func_service |
MasterMetadataServiceFrequentChanges | Частая смена главной службы метаданных | topk(1, mdsd_is_master_top1) and (delta(mdsd_master_uptime[1h]) < 300000) | 10m | warning | Главная служба метаданных изменилась более одного раза за 5 минут. | func_service |
S3GatewayHighGetLatency | Высокая задержка GET-запросов шлюза S3 | 5000 > histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000 | 1m | warning | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 1 секунды. | func_service |
S3GatewayCriticallyHighGetLatency | Критически высокая задержка GET-запросов шлюза S3 | histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (_pak_id, instance, le)) >= 5000 | 1m | critical | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 5 секунд. | func_service |
ObjectServiceCriticallyHighLatency | Критически высокая задержка запросов объектной службы | histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000 | 1m | critical | Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд. | func_service |
ObjectServiceHighLatency | Высокая задержка запросов объектной службы | 5000 > histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000 | 1m | warning | Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды. | func_service |
NameServiceCriticallyHighLatency | Критически высокая задержка запросов службы имен | histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000 | 1m | critical | Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд. | func_service |
NameServiceHighLatency | Высокая задержка запросов службы имен | 5000 > histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000 | 1m | warning | Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды. | func_service |
NameServiceHighCommitLatency | Высокая задержка коммитов службы имен | 10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“NS”}) by (instance, _pak_id, le)) > 1000000 | 1m | warning | Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища. | func_service |
NameServiceCriticallyHighCommitLatency | Критически высокая задержка коммитов службы имен | histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“NS”}) by (instance, _pak_id, le)) >= 10000000 | 1m | critical | Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища. | func_service |
ObjectServiceHighCommitLatency | Высокая задержка коммитов объектной службы | 10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“OS”}) by (instance, _pak_id, le)) > 1000000 | 1m | warning | Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища. | func_service |
ObjectServiceCriticallyHighCommitLatency | Критически высокая задержка коммитов объектной службы | histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service=“OS”}) by (instance, _pak_id, le)) >= 10000000 | 1m | critical | Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища. | func_service |
S3GatewayHighCancelRate | Высокая частота отмены запросов шлюза S3 | 30 > ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 > 5 | 1m | warning | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 5%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов. | func_service |
S3GatewayCriticallyHighCancelRate | Критически высокая частота отмены запросов шлюза S3 | ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 >= 30 | 1m | critical | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 30%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов. | func_service |
ObjectStorageAgentFrozen | Замороженный агент объектного хранилища | increase(pcs_process_inactive_seconds_total{service=“OS”}[5m]) > 0 | 1m | critical | Агент объектного хранилища по адресу {{ $labels.instance }} имеет неактивный цикл событий более 1 минуты. | func_service |
S3ServiceFrozen | Замороженная служба S3 | increase(pcs_process_inactive_seconds_total{service=~“S3GW | OS | NS”}[5m]) > 0 | 1m | critical |
S3GatewayHighCPU | Высокая загрузка процессора шлюза S3 | 90 > (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service=“S3GW”}[5m])) * 100) > 75 | 1m | warning | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 75%. Служба может быть перегружена. | func_service |
S3GatewayCriticallyHighCPU | Критически высокая загрузка процессора шлюза S3 | (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service=“S3GW”}[5m])) * 100) >= 90 | 1m | critical | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 90%. Служба может быть перегружена. | func_service |
S3GatewayHighFailedRequests | Большое количество неудачных запросов шлюза S3 | ((sum(ostor_req_server_err_rate) by (instance, _pak_id)) / (sum(ostor_s3gw_req_rate) by (instance, _pak_id))) * 100 > 5 | 1m | critical | Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет много неудачных запросов с ошибкой сервера (код состояния 5XX). | func_service |
S3ServiceFailedStart | Неудачный запуск службы S3 | increase(ostor_svc_start_failed_count_total{service=~“OS | NS | S3GW”}[5m]) > 1 | 1m | critical |
FSFailedStart | Неудачный запуск файловой службы | increase(ostor_svc_start_failed_count_total{service=“FS”}[5m]) > 1 | 1m | critical | Агент объектного хранилища не смог запустить файловую службу по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. | func_service |
ObjectStorageAgentOffline | Оффлайн агент объектного хранилища | up{service=“OSTOR_REPLICATO”} == 0 | 1m | warning | Агент объектного хранилища находится в оффлайн по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. | func_service |
ObjectStorageAgentNoConfigConnection | Агент объектного хранилища не подключен к службе конфигурации | increase(ostor_svc_registry_cfg_failed_total[5m]) > 1 | 1m | critical | Агент объектного хранилища не смог подключиться к службе конфигурации по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. | func_service |
S3ClusterUnavailableObjectServices | Недоступные объектные службы в кластере S3 | count(up{service=“OS”}) by (instance) > sum(up{service=“OS”}) by (instance) | 1m | warning | Некоторые объектные службы не работают по адресу {{ $labels.instance }} ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке. | func_service |
S3ClusterUnavailableNameServices | Недоступные службы имен в кластере S3 | count(up{service=“NS”}) by (instance) > sum(up{service=“NS”}) by (instance) | 1m | warning | Некоторые службы имен не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке. | func_service |
S3ClusterUnavailableS3GatewayServices | Недоступные службы шлюза S3 в кластере | count(up{service=“S3GW”}) by (instance) > sum(up{service=“S3GW”}) by (instance) | 1m | warning | Некоторые службы шлюза S3 не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке. | func_service |
S3ClusterUnavailableGeoReplicationServices | Недоступные службы георепликации в кластере S3 | count(up{service=“GR”}) by (instance) > sum(up{service=“GR”}) by (instance) | 1m | warning | Некоторые службы георепликации не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке. | func_service |
NFSServiceUnavailableFSServices | Недоступные файловые службы NFS | count(up{service=“FS”}) by (instance) > sum(up{service=“FS”}) by (instance) | 1m | warning | Некоторые файловые службы не работают на узле {{ $labels._node_id }}. Проверьте статус службы в командной строке. | func_service |
MetadataServiceHighCPU | Высокая загрузка процессора службы метаданных | (sum by (_node_id) (rate(process_cpu_seconds_total[5m])) * 100) > 80 | 1m | warning | Служба метаданных на узле {{ $labels._node_id }} имеет загрузку процессора выше 80%. Служба может быть перегружена. | func_service |
NodeHighTransmitPacketError | Высокая частота ошибок исходящих пакетов | node_network_transmit_errs_total_rate > 1000 | 5m | warning | Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла. | func_service |
NetworkBondNotRedundant | Сетевой бонд не избыточен | node_bonding_slaves - node_bonding_active > 0 |
5m | critical | Сетевой бонд {{ $labels.master }} на узле {{ $labels._node_id }} не имеет {{ $labels.value }} подчиненных интерфейсов. | func_service |