Правила оповещения Визион

1. Общая информация о правилах оповещения Визион#

Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .

В поле “Имя” в списке уведомлений попадает значение из поля “Имя” в Правиле Оповещения.

Период определяет интервал времени, в течение которого выражение определяющее правило оповещения остается истинным прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.

Важность определяет значимость события для пользователя. Важность может принимать следующие значения:

  • critical (максимальная важность)
  • info
  • warning

Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.

Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.

2. Список правил оповещения входящих в поставку Визион#

Название правила Краткое описание PromQL выражение Период Важность Шаблон Тип ПАК Категории
ClickHouseServerProcessInfo Отсутствует процесс сервера ClickHouse namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0 0m info Отсутствует процесс сервера ClickHouse МБД.КХ func_service
ClickHouseServerProcessWarning Процесс сервера ClickHouse отсутствует более 5 минут namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0 5m warning Процесс сервера ClickHouse отсутствует более 5 минут МБД.КХ func_service
ClickHouseSimultaneousQueriesWarning Количество одновременных запросов к БД ClickHouse достигло значения 90 clickhouse_simultaneous_queries > 90 5m warning Количество одновременных запросов к БД ClickHouse достигло значения 90 МБД.КХ func_service
ClickHouseSimultaneousQueriesCritical Количество одновременных запросов к БД ClickHouse достигло значения 100 clickhouse_simultaneous_queries >= 100 30s critical Количество одновременных запросов к БД ClickHouse достигло значения 100 МБД.КХ func_service
ClickHouseReplicationStuckTasks Имеются зависшие задачи репликации ClickHouse clickhouse_replication_stuck_task_count > 0 5m warning Имеются зависшие задачи репликации ClickHouse МБД.КХ func_service
ClickHouseZooKeeperStatus ZooKeeper ClickHouse недоступен clickhouse_zookeeper_status == 0 0m critical ZooKeeper ClickHouse недоступен МБД.КХ func_service
ClickHouseZooKeeperResponse Время ответа ZooKeeper превысило 1000 микросекунд clickhouse_zookeeper_response_microseconds > 0 5m warning Время ответа ZooKeeper превысило 1000 микросекунд МБД.КХ func_service
ClickHouseZooKeeperOutstandingRequest Количество ожидающих запросов ZooKeeper превысило 50 clickhouse_zookeeper_outstanding_request_count > 50 5m warning Количество ожидающих запросов ZooKeeper превысило 50 МБД.КХ func_service
ClickHouseReplicasMaxDelay Максимальная разница в сек. между свежей реплиц. частью и свежей частью данных превысила 60 секунд clickhouse_replicas_max_delay_seconds > 60 5m warning Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд МБД.КХ func_service
ClickHouseServerRestarted ClickHouse был перезапущен clickhouse_uptime < clickhouse_uptime offset 1m 0m warning ClickHouse был перезапущен МБД.КХ func_service
GreenplumHighConnectionsRatio Количество текущих соединений Greenplum достигло 80% от возможного greenplum_current_connections_ratio > 80 and greenplum_current_connections_ratio < 90 30m warning Количество текущих соединений Greenplum достигло 80% от возможного МБД.Г func_service
GreenplumCriticalConnectionsRatio Количество текущих соединений Greenplum достигло 90% от возможного greenplum_current_connections_ratio > 90 30m critical Количество текущих соединений Greenplum достигло 90% от возможного МБД.Г func_service
GreenplumHighSpillSize Общий объем Spill-файлов Greenplum превысил 30 GB greenplum_spill_size_total > 30 and greenplum_spill_size_total < 50 30m warning Общий объем Spill-файлов Greenplum превысил 30 GB МБД.Г func_service
GreenplumCriticalSpillSize Общий объем Spill-файлов Greenplum превысил 50 GB greenplum_spill_size_total > 50 30m critical Общий объем Spill-файлов Greenplum превысил 50 GB МБД.Г func_service
GreenplumMasterDown Ведущий узел Greenplum находится в отключенном состоянии greenplum_master_up == 0 0m critical Ведущий узел Greenplum находится в отключенном состоянии МБД.Г func_service
GreenplumPrimarySegmentsDown Имеются primary-сегменты Greenplum в статусе down greenplum_primary_segments_down_count > 0 0m critical Один и более primary-сегментов Greenplum находятся в статусе down МБД.Г func_service
GreenplumMirrorSegmentsDown Имеются mirror-сегменты Greenplum в статусе down greenplum_mirror_segments_down_count > 0 0m critical Один и более mirror-сегментов Greenplum находятся в статусе down МБД.Г func_service
GreenplumPanicResetErrors Имеются ошибки типа “Panic” и “Reset” в pg_log Greenplum count_over_time(greenplum_pg_log_reset_panic== 1[1h]) > 1 0m critical За последний час в pg_log были зафиксированы ошибки типа Panic и Reset МБД.Г func_service
GreenplumLongActiveSessions Имеются подключения к Greenplum, находящиеся в активном состоянии более часа greenplum_active_session_for_hour_count > 0 5m warning Имеются активные подключения к Greenplum, находящиеся в этом статусе более часа МБД.Г func_service
GreenplumLongSessions Имеются подключения к Greenplum, находящиеся в своём состоянии более часа greenplum_session_for_hour_count > 0 5m warning Имеются подключения к Greenplum, не менявшие свой статус более часа МБД.Г func_service
GreenplumHighLocksCount Имеется больше 10 блокировок в БД Greenplum greenplum_locks_count > 10 and greenplum_locks_count < 20 0m warning Имеется больше 10 блокировок в БД Greenplum МБД.Г func_service
GreenplumCriticalLocksCount Имеется больше 20 блокировок в БД Greenplum greenplum_locks_count > 20 0m critical Имеется больше 20 блокировок в БД Greenplum МБД.Г func_service
HadoopWarningMemHeapUsed Hadoop: объём используемой памяти heap занимает более 70% от макс. значения ((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.7 and (hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) < 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.7 and (hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) < 0.9) 5m warning Объём используемой памяти heap БД Hadoop занимает более 70% от максимального значения МБД.Х func_service
HadoopCriticalMemHeapUsed Hadoop: объём используемой памяти heap занимает более 90% от макс. значения ((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.9) 5m critical Объём используемой памяти heap БД Hadoop занимает более 90% от максимального МБД.Х func_service
HadoopWarningCapacityUsed Hadoop: общий объём используемого пространства для хранения данных занимает 70% от макс. значения (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.7 and (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) < 0.9 5m warning Общий объём используемого пространства для хранения данных БД Hadoop занимает 70% от максимального значения МБД.Х func_service
HadoopCriticalCapacityUsed Hadoop: общий объём используемого пространства для хранения данных занимает 90% от макс. значения (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.9 5m critical Общий объём используемого пространства для хранения данных БД Hadoop занимает 90% от максимального значения МБД.Х func_service
HadoopMissingBlocks Hadoop: имеются недостающие блоки данных hadoop_f_s_namesystem_missing_blocks > 0 1m critical Имеются недостающие блоки данных БД Hadoop МБД.Х func_service
HadoopWarningNonHeapMemoryUsage Hadoop: используемый объём памяти для non-heap областей в JVM занимает более 70% от макс. значения (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.7 and (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) < 0.9 5m warning Объём памяти для non-heap областей в JVM БД Hadoop занимает более 70% от максимального значения МБД.Х func_service
HadoopCriticalNonHeapMemoryUsage Hadoop: используемый объём памяти для non-heap областей в JVM занимает более 90% от макс. значения (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.9 5m critical Объём памяти для non-heap областей в JVM БД Hadoop занимает более 70% от максимального значения МБД.Х func_service
HadoopWarningAllocatedVCores Hadoop: количество выделенных ядер достигает более 70% от макс. значения (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.7 and (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) < 0.9 5m warning Количество выделенных ядер БД Hadoop достигает более 70% от максимального значения МБД.Х func_service
HadoopCriticalAllocatedVCores Hadoop: количество выделенных ядер достигает более 90% от макс. значения (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.9 5m critical Количество выделенных ядер БД Hadoop достигает более 90% от максимального значения МБД.Х func_service
HadoopWarningAllocatedGB Hadoop: количество выделенной памяти в ГБ достигает более 70% от макс. значения (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.7 and (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) < 0.9 5m warning Количество выделенной памяти в ГБ БД Hadoop достигает более 70% от максимального значения МБД.Х func_service
HadoopCriticalAllocatedGB Hadoop: количество выделенной памяти в ГБ достигает более 90% от макс. значения (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.9 5m critical Количество выделенной памяти в ГБ БД Hadoop достигает более 90% от максимального значения МБД.Х func_service
KafkaMaxLag Наблюдается рост максимальной задержки Kafka increase(kafka_replica_manager_max_lag[5m]) > 0 0s critical Наблюдается рост максимальной задержки Kafka в течение пяти минут МВ.С func_service
KafkaOfflineReplica Более одной реплики Kafka находится в состоянии Offline kafka_replica_manager_offline_replica_count > 1 0s critical Более одной реплики Kafka находится в состоянии Offline МВ.С func_service
KafkaOfflinePartitions Имеется более одной недоступной партиции Kafka kafka_controller_offline_partitions_count > 1 0s critical Имеется более одной недоступной для чтения и записи партиции МВ.С func_service
KafkaWarningHeapMemoryUsage Использовано более 70% объёма динамической памяти Kafka (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.7 and (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) < 0.9 5m warning Использовано более 70% объёма динамической памяти МВ.С func_service
KafkaCriticalHeapMemoryUsage Использовано более 90% объёма динамической памяти Kafka (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.9 5m critical Использовано более 90% объёма динамической памяти МВ.С func_service
KafkaZooKeeperExpires Имеется более одного истёкшего срока действия сеанса ZooKeeper (Kafka) kafka_session_zookeeper_expires_per_sec{rate=“Count”} > 1 0s critical Имеется более одного истёкшего срока действия сеанса ZooKeeper МВ.С func_service
NodeOutOfMemory Память узла почти заполнена node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 2m warning Осталось менее 10% свободной памяти узла Все server
NodeMemoryUnderMemoryPressure Системе не хватает свободной памяти на узле rate(node_vmstat_pgmajfault[1m]) > 1000 2m warning Большая нагрузка на память узла. Слишком часто происходят отказы главной страницы Все server
NodeMemoryIsUnderutilized Недоиспользование памяти узла (100 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes * 100) < 20) 4d info Память узла заполнена менее чем на 20% за последние 4 дня Все server
NodeUnusualNetworkThroughputIn Необычная активность сети на узле (входящие данные) sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100 5m warning Сеть начала резко получать более 100 мб/с Все server, network
NodeUnusualNetworkThroughputOut Необычная активность сети на узле (исходящие данные) sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100 5m warning Сеть начала резко отдавать более 100 мб/с Все server, network
NodeUnusualDiskReadRate Необычная активность при чтении диска на узле sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50 5m warning Диск начал резко читать более 50 мб/с Все server
NodeUnusualDiskWriteRate Необычная активность при записи на диск на узле sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50 5m warning Диск начал резко писать более 50 мб/с Все server
NodeDiskWillFillIn24Hours Дисковое пространство на узле почти заполнено (node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0 2m warning Дисковое пространство на хосте почти заполнено и закончится в течение 24 часов Все server
NodeOutOfInodes На диске на узле почти закончились свободные индексные дескрипторы node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0 2m warning Индексные дескрипторы заполнены на 90% Все server
NodeFilesystemDeviceError Ошибка файловой системы на узле node_filesystem_device_error == 1 2m critical Ошибка файловой системы Все server
NodeInodesWillFillIn24Hours Индексные дескрипторы на узле скоро заполнятся node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0 2m warning Индексные дескрипторы заполнятся в течение 24 часов Все server
NodeUnusualDiskReadLatency Необычная задержка при чтении файлов с диска на узле rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0 2m warning Задержка при чтении файлов с диска выше 100 мс Все server
NodeUnusualDiskWriteLatency Необычная задержка при записи файлов на диск на узле rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0 2m warning Задержка при записи файлов на диск выше 100 мс Все server
NodeHighCpuLoad Большая нагрузка на ЦП на узле avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!=“idle”}[2m]) * 100) > 80 2m warning ЦП загружен на более чем 80% Все server
NodeCpuIsUnderutilized Слишком низкая загрузка на процессор на узле 100 - (rate(node_cpu_seconds_total{mode=“idle”}[30m]) * 100) < 20 4d warning ЦП загружен менее чем на 20% последние 4 дня Все server
NodeCpuStealNoisyNeighbor Нехватка процессорного времени на узле avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) * 100 > 10 0m warning Нехватка процессорного времени превышает 10%. “Шумный сосед” крадёт слишком много ресурсов Все server
NodeCpuHighIowait Iowat ЦП на узле превышает 10% avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) * 100 > 10 0m warning Iowat ЦП превышает 10% Все server
NodeUnusualDiskIo Необычная активность IO на диске хоста rate(node_disk_io_time_seconds_total[1m]) > 0.5 5m warning Время, проведённое в IO, более 5 минут Все server
NodeContextSwitchingHigh Часто происходит смена контекста на хосте (rate(node_context_switches_total[15m])/count (node_cpu_seconds_total{mode=“idle”}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=“idle”})) > 2 0m warning Частота смены контекста на хосте активно растёт Все server
NodeSwapIsFillingUp SWAP хоста заполняется (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 80 2m warning SWAP хоста заполнен более чем на 80% Все server
NodeOomKillDetected Out of Memory Killer начал работу increase(node_vmstat_oom_kill[1m]) > 0 0m warning Out of Memory Killer начал работу Все server
NodeNetworkReceiveErrors Рост сетевых ошибок на получение на хосте rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 2m warning В последние две минуты увеличилось число сетевых ошибок на хосте на получение Все server
NodeNetworkTransmitErrors Рост сетевых ошибок на передачу на хосте rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 2m warning В последние две минуты увеличилось число сетевых ошибок на хосте на передачу Все server
NodeNetworkInterfaceSaturated Интерфейс сети на узле перегружен (rate(node_network_receive_bytes_total{device!~"^tap.|^vnet.|^veth.|^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.|^vnet.|^veth.|^tun."}[1m])) / node_network_speed_bytes{device!~"^tap.|^vnet.|^veth.|^tun."} > 0.8 < 10000 1m warning Интерфейс сети перегружен Все server
NodeClockSkew Системное время на узле рассинхронизировано (node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0) 10m warning Системное время рассинхронизировано на более чем 0.05 секунд Все server
NodeClockNotSynchronising Время на сервере не синхронизируется (node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0) 2m warning Время на сервере не синхронизируется Все server
PicodataReadOnlyState Инстанс Picodata находится в режиме только для чтения tnt_read_only == 1 0m critical Инстанс Picodata находится в режиме только для чтения МБД.Т func_service
PicodataElectionState Узел Picodata задействован в выборе лидера и принял соответствующее состояние tnt_election_state == 1 0m critical Узел Picodata задействован в выборе лидера и принял соответствующее состояние МБД.Т func_service
PostgresHighActiveSessionsCount Количество активных сессий достигло 100 (PG) pg_stat_activity_count > 100 and pg_stat_activity_count < 500 30s warning Количество активных сессий достигло 100 МБД.П func_service
PostgresCriticalActiveSessionsCount Количество активных сессий достигло 500 (PG) pg_stat_activity_count > 500 30s critical Количество активных сессий достигло 500 МБД.П func_service
PostgresHighReplicationLag Лаг репликации достиг значения 50 (PG) pg_replication_lag > 50 and pg_replication_lag < 100 5m warning Лаг репликации достиг значения 50 МБД.П func_service
PostgresCriticalReplicationLag Лаг репликации достиг значения 100 (PG) pg_replication_lag > 100 5m critical Лаг репликации достиг значения 100 МБД.П func_service
PostgresHighDatabaseTemp Используется более 50 GB TEMP (PG) pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100 5m warning Используется более 50 GB TEMP МБД.П func_service
PostgresCriticalDatabaseTemp Используется более 100 GB TEMP (PG) pg_stat_database_temp_bytes > 100 5m critical Используется более 100 GB TEMP МБД.П func_service
SnmpDataNotReceived Не поступают данные с устройства SNMP up{job=~“snmp.*”} != 1 5m critical Не удалось собрать данные с SNMP-устройства Все network
SnmpLongSysUpTime SNMP-устройство работает без перезапуска более 2.5 лет sysUpTime > 7776000000 2m warning SNMP-устройство работает без перезапуска более 2.5 лет Все network
SnmpPortChangedState Порт изменил своё состояние delta(ifOperStatus[15m]) != 0 2m critical В последние 15 минут порт изменил своё состояние. Возможно, он выключен или перезапущен Все network
SnmpHighInComingTraffic Входящий трафик порта коммутатора приближается к пороговому значению (rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 6m info Входящий трафик порта коммутатора выше 75% от пропускной способности Все network
SnmpHighOutComingTraffic Исходящий трафик порта коммутатора приближается к пороговому значению (rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0 6m info Исходящий трафик порта коммутатора выше 75% от пропускной способности Все network
SnmpAnomalyTraffic Замечено аномальное увеличение трафика rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) 12m info Замечено аномальное увеличение трафика Все network
SnmpIncreaseInComingTrafficError Рост количества ошибок на входящий трафик rate(ifInErrors[4m]) > 10 6m warning Количество ошибок на входящий трафик превысило 10 Все network
SnmpIncreaseOutComingTrafficError Рост количества ошибок на исходящий трафик rate(ifOutErrors[4m]) > 10 6m warning Количество ошибок на исходящий трафик превысило 10 Все network
SnmpIncreaseDiscardsInComingPacket Рост количества отклонённых пакетов на исходящий трафик rate(ifOutDiscards[4m]) > 10 6m warning Количество отклонённых пакетов на исходящий трафик превысило 10 Все network
SnmpIncreaseDiscardsOutComingPacket Рост количества отклонённых пакетов на входящий трафик rate(ifInDiscards[4m]) > 10 6m warning Количество отклонённых пакетов на входящий трафик превысило 10 Все network
SnmpIncreaseInComingPacket Большое количество передаваемых пакетов на входящий трафик rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000 6m warning Зафиксирован рост числа передаваемых пакетов на входящий трафик Все network
SnmpIncreaseOutComingPacket Большое количество передаваемых пакетов на исходящий трафик rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000 6m warning Зафиксирован рост числа передаваемых пакетов на исходящий трафик Все network
SpectrumHighAutovacuumProcCount Активных процессов автовакуума больше 3 (PG) spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6 1m warning Активных процессов автовакуума больше 3 МБД.П func_service
SpectrumCriticalAutovacuumProcCount Активных процессов автовакуума больше 6 (PG) spectrum_autovacuum_proc_count > 6 1m warning Активных процессов автовакуума больше 6 МБД.П func_service
EraDiskNotAvailable Диск недоступен era_disk_state == 0 4h critical Диск недоступен МБД.П storage
EraCouldNotReconstruct ERA RAID не может завершить реконструкцию era_raid_state_initialization == 10 1h critical RAID не может завершить реконструкцию МБД.П storage
EraCouldNotRecover ERA RAID не смог восстановиться era_raid_state_initialization == 11 1h critical RAID не смог восстановиться МБД.П storage
EraInitialNeeds ERA RAID нуждается в инициализации era_raid_state_initialization == 2 30m warning RAID нуждается в инициализации МБД.П storage
EraReconstructNeeds ERA RAID нуждается в реконструкции era_raid_state_initialization == 7 4h critical RAID нуждается в реконструкции МБД.П storage
EraNotAvailable ERA RAID недоступен era_raid_state_availability == 0 30m critical RAID недоступен МБД.П storage
EraHighDiskWear Существенный износ диска era_disk_wear > 75 24h warning Существенный износ диска МБД.П storage
EraCriticalDiskWear Критический износ диска era_disk_wear > 90 4h critical Критический износ диска МБД.П storage
EraLicenseExpire Месяц до истечения лицензии ERA ((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7) 0s warning До истечения срока действия лицензии остался месяц МБД.П storage
EraLicenseExpireSoon Неделя до истечения лицензии ERA ((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1 0s critical До истечения срока действия лицензии осталась неделя МБД.П storage
EraLicenseNotActive Лицензия неактивна era_license_status != 1 0s critical Лицензия неактивна МБД.П storage
GreenplumHighPartitionRatio Разделы Greenplum занимают более 80% доступного пространства greenplum_partition_ratio > 80 and greenplum_partition_ratio < 90 30m warning Разделы Greenplum занимают более 80% доступного пространства МБД.Г func_service
GreenplumCriticalPartitionRatio Разделы Greenplum занимают более 90% доступного пространства greenplum_partition_ratio > 90 30m critical Разделы Greenplum занимают более 90% доступного пространства МБД.Г func_service
GreenplumWrongClusterStatus Greenplum не находится в обычном одиночном или многопользовательском режиме greenplum_cluster_status != 1 and greenplum_cluster_status != 0 0m critical Greenplum не находится в обычном одиночном или многопользовательском режиме. Возможно, он в режиме администратора или любом другом режиме МБД.Г func_service
GreenplumOldLogCount Имеются файлы pg_log (Greenplum) старше 3 месяцев greenplum_pg_log_three_month_old_count > 0 0m warning Есть файлы pg_log Greenplum старше 3 месяцев МБД.Г func_service
GreenplumVeryOldLogCount Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) за текущий день превысило 100 greenplum_pg_log_errors_fatal > 100 and greenplum_pg_log_errors_fatal < 300 0m warning В pg_log (Greenplum) количество записей с уровнем ERROR и FATAL больше 100 МБД.Г func_service
GreenplumFatalLogErrors Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) за текущий день превысило 300 greenplum_pg_log_errors_fatal > 300 0m critical В pg_log (Greenplum) количество записей с уровнем ERROR и FATAL больше 300 МБД.Г func_service
LibvirtDomainMemoryWarning Процент использования памяти доменом Libvirt достиг 80% libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90 5m warning У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value }} МВ.ДИ server
LibvirtDomainMemoryCritical Процент использования памяти доменом Libvirt достиг 90% libvirt_domain_memory_stats_used_percent > 90 5m critical У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value }} МВ.ДИ server
BVSStatusCritical Узел BVS МВ.ДИ находится в статусе, отличном от Online dynamix_bvs_node_status!=1 0m critical Узел BVS {{ $labels._node_id }} ПАКа {{ $labels._pak_id }} находится в статусе {{ $value }} МВ.ДИ server
DynamixVMTechStatusWarning Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе dynamix_vm_tech_status != (1 and 7) 0m warning Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе {{ $value }} МВ.ДИ func_service
DynamixVMTechStatusCritical Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN dynamix_vm_tech_status == 7 0m critical Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе DOWN МВ.ДИ func_service
DynamixVMWorkingStatusWarning Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности dynamix_vm_status != (1 and 0) 0m warning Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }} МВ.ДИ func_service
DynamixNodeStatusWarning Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности dynamix_node_status != (1 and 0) 0m warning Узел Dynamix {{ $labels.node_name }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }} МВ.ДИ func_service
TatlinDiskStatusWarning Диск СХД Татлин находится в статусе Warning tatlinHwDiskStateCode == 3 5m warning Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinDiskStatusError Диск СХД Татлин находится в статусе Error tatlinHwDiskStateCode == 2 5m critical Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinDiskStatusInfo Диск СХД Татлин находится в статусе Info tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3 5m info Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinDiskBayFailure Дисковая полка Татлин находится в статусе Error tatlinHwDiskbayStateCode != 1 5m critical Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinDiskBayLost Потеряна связь с дисковой полкой СХД Татлин lag(tatlinHwDiskbaySn{}[2h]) > 15m 0s critical Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinEthernetPortWarning Порт Ethernet СХД Татлин находится в статусе Warning tatlinHwEthStateCode == 3 5m warning Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage, network
TatlinEthernetPortError Порт Ethernet СХД Татлин находится в статусе Error tatlinHwEthStateCode == 2 5m critical Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage, network
TatlinEthernetPortInfo Порт Ethernet СХД Татлин находится в статусе info tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3 5m info Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage, network
TatlinFibreChannelPortWarning Порт Fibre Channel СХД Татлин находится в статусе Warning tatlinHwFcStateCode == 3 5m warning Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage, network
TatlinFibreChannelPortError Порт Fibre Channel СХД Татлин находится в статусе Error tatlinHwFcStateCode == 2 5m critical Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage, network
TatlinFibreChannelPortInfo Порт Fibre Channel СХД Татлин находится в статусе Info tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3 5m info Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage, network
TatlinReplicationManagementNetworkCritical Сеть управления репликациями СХД Татлин находится в статусе Failure tatlinConfigReplicationStorageMgmtNetwork == 4 5m critical Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinReplicationNetworkCritical Сеть репликаций СХД Татлин находится в статусе Failure tatlinConfigReplicationStorageReplicationNetwork != 1 5m critical Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinPoolFreeSpaceRunningOutWarning Заканчивается свободное место СХД Татлин tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold 30m warning “{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})” МВ.ДИ storage
TatlinPoolFreeSpaceRunningOutCritical Свободное место СХД Татлин почти закончилось tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold 30m critical “{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})” МВ.ДИ storage
TatlinResourceFreeSpaceRunningOutCritical Свободное место ресурса СХД Татлин почти закончилось (tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) 30m critical “{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})” МВ.ДИ storage
TatlinDriveCapacityFailure Ошибка объёма накопителя СХД Татлин tatlinConfigDriveFailed > 0 30m critical “{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})” МВ.ДИ storage
TatlinDriveFailed Имеются ошибки накопителя СХД Татлин tatlinConfigDriveFailedCount > 0 30m critical Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinPoolOversubscription Пул СХД Татлин находится в состоянии избыточного выделения ресурсов 100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, ’tatlinConfigPoolName’, ’tatlinConfigResPool’)) > 100 30m critical У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage
TatlinNoResponse СХД Татлин не отвечает по SNMP lag(tatlinVersion{}[2h]) > 15m 0s critical СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value humanizeDuration }} МВ.ДИ
TatlinCPUUtilizationWarning Загрузка процессора СХД Татлин достигла 90% (100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95) 5m warning Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}% МВ.ДИ storage
TatlinCPUUtilizationCritical Загрузка процессора СХД Татлин достигла 95% 100 - tatlinPerfCpuIdle >= 95 2m critical Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}% МВ.ДИ storage
StorageProcessorFailure Ошибка процессора СХД tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0 5m critical Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }}) МВ.ДИ storage

3. Правила оповещения Picodata#

Для Picodata нельзя определить универсальные значения, по которым нужно оповещать пользователя, поэтому предлагается шаблон, который позволяет пользователю создать собственные правила оповещения и выставить интересующие значения в зависимости от развёрнутого инстанса.

Название правила PromQL выражение Период Важность Шаблон Тип ПАК
Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение tnt_cpu_user_time > X 10m warning Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение МБД.Т
Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение tnt_cpu_system_time > X 10m warning Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение МБД.Т
Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение tnt_slab_arena_used > X 10m warning Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение МБД.Т
Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение tnt_slab_arena_used_ratio > X 10m warning Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение МБД.Т
Объем данных, хранимых в файлах Picodata, превысил допустимое значение tnt_vinyl_disk_data_size > X 10m warning Объем данных, хранимых в файлах Picodata, превысил допустимое значение МБД.Т
Объем индекса, хранимого в файлах Picodata, превысил допустимое значение tnt_vinyl_disk_index_size > X 10m warning Объем индекса, хранимого в файлах Picodata, превысил допустимое значение МБД.Т
Размер индексов страниц данного инстанса Picodata превысил допустимое значение tnt_vinyl_memory_page_index > X 10m warning Размер индексов страниц данного инстанса Picodata превысил допустимое значение МБД.Т
Общее количество запросов Picodata превысило допустимое значение tnt_net_requests_total > X 10m warning Общее количество запросов Picodata превысило допустимое значение МБД.Т
Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение tnt_net_requests_in_progress_current > X 10m warning Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение МБД.Т
Общее количество соединений с Picodata превысило допустимое значение tnt_net_connections_total > X 10m warning Общее количество соединений с Picodata превысило допустимое значение МБД.Т
Текущее количество соединений с Picodata превысило допустимое значение tnt_net_connections_current > X 10m warning Текущее количество соединений с Picodata превысило допустимое значение МБД.Т
Общее количество освобожденной памяти Picodata превысило допустимое значение lj_gc_freed_total > 10m warning Общее количество освобожденной памяти Picodata превысило допустимое значение МБД.Т
Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение lj_gc_steps_pause_total > X 10m warning Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение МБД.Т
Количество фиксаций транзакций в Picodata превысило допустимое значение tnt_vinyl_tx_commit > X 10m warning Количество фиксаций транзакций в Picodata превысило допустимое значение МБД.Т
Количество откатов транзакций в Picodata превысило допустимое значение tnt_vinyl_tx_rollback > X 10m warning Количество откатов транзакций в Picodata превысило допустимое значение МБД.Т
Количество потоков на инстансе Picodata превысило допустимое значение tnt_fiber_amount > X 10m warning Количество потоков на инстансе Picodata превысило допустимое значение МБД.Т
Объём используемой памяти потоков Picodata превысил допустимое значение tnt_fiber_memused > X 10m warning Объём используемой памяти потоков Picodata превысил допустимое значение МБД.Т

4. Правила оповещения ClickHouse#

Для мониторинга доступности узлов ClickHouse используется blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Пользователю предлагается настроить его самостоятельно по данному шаблону:

Название правила PromQL выражение Период Важность Шаблон Тип ПАК
Отсутствует связь с сервером ClickHouse ‘probe_success{instance=“X:8123”} == 0’ 0m info Отсутствует связь с сервером ClickHouse МБД.КХ
Связь с сервером ClickHouse отсутствует более 5 минут ‘probe_success{instance=“X:8123”} == 0’ 5m warning Связь с сервером ClickHouse отсутствует более 5 минут МБД.КХ
Отсутствует связь с сервером реплики ClickHouse ‘probe_success{instance=“X:8123/replicas_status”} == 0’ 5m warning Отсутствует связь с сервером реплики ClickHouse МБД.КХ