Правила оповещения Визион

1. Общая информация о правилах оповещения Визион#

Правило оповещения является условием (определяется PromQL выражением), которое применяется к значениям временных рядов, формируемых на основе метрик .

В поле “Имя” в списке уведомлений попадает значение из поля “Имя” в Правиле Оповещения.

Период определяет интервал времени, в течение которого выражение, определяющее правило оповещения, остается истинным, прежде чем сгенерируется оповещение (алерт). В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.

Важность определяет значимость события для пользователя. Важность может принимать следующие значения:

critical (максимальная важность)
info
warning

Шаблон влияет на форматирование сообщения, отправляемое пользователю на электронный почтовый адрес.

Алерты, генерируемые на основе правил оповещения, отображаются в [списке уведомлений] в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведен в разделе ниже.

2. Список правил оповещения входящих в поставку Визион#

Название правила	Краткое описание	PromQL выражение	Период	Важность	Шаблон	Тип ПАК	Категории
ClickHouseServerProcessInfo	Отсутствует процесс сервера ClickHouse	namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0	0m	info	Отсутствует процесс сервера ClickHouse	МБД.КХ	func_service
ClickHouseServerProcessWarning	Процесс сервера ClickHouse отсутствует более 5 минут	namedprocess_namegroup_num_procs{groupname=“clickhouse”} < 0	5m	warning	Процесс сервера ClickHouse отсутствует более 5 минут	МБД.КХ	func_service
ClickHouseSimultaneousQueriesWarning	Количество одновременных запросов к БД ClickHouse достигло значения 90	clickhouse_simultaneous_queries > 90	5m	warning	Количество одновременных запросов к БД ClickHouse достигло значения 90	МБД.КХ	func_service
ClickHouseSimultaneousQueriesCritical	Количество одновременных запросов к БД ClickHouse достигло значения 100	clickhouse_simultaneous_queries >= 100	30s	critical	Количество одновременных запросов к БД ClickHouse достигло значения 100	МБД.КХ	func_service
ClickHouseReplicationStuckTasks	Имеются зависшие задачи репликации ClickHouse	clickhouse_replication_stuck_task_count > 0	5m	warning	Имеются зависшие задачи репликации ClickHouse	МБД.КХ	func_service
ClickHouseZooKeeperStatus	ZooKeeper ClickHouse недоступен	clickhouse_zookeeper_status == 0	0m	critical	ZooKeeper ClickHouse недоступен	МБД.КХ	func_service
ClickHouseZooKeeperResponse	Время ответа ZooKeeper превысило 1000 микросекунд	clickhouse_zookeeper_response_microseconds > 0	5m	warning	Время ответа ZooKeeper превысило 1000 микросекунд	МБД.КХ	func_service
ClickHouseZooKeeperOutstandingRequest	Количество ожидающих запросов ZooKeeper превысило 50	clickhouse_zookeeper_outstanding_request_count > 50	5m	warning	Количество ожидающих запросов ZooKeeper превысило 50	МБД.КХ	func_service
ClickHouseReplicasMaxDelay	Максимальная разница в сек. между свежей реплиц. частью и свежей частью данных превысила 60 секунд	clickhouse_replicas_max_delay_seconds > 60	5m	warning	Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд	МБД.КХ	func_service
ClickHouseServerRestarted	ClickHouse был перезапущен	clickhouse_uptime < clickhouse_uptime offset 1m	0m	warning	ClickHouse был перезапущен	МБД.КХ	func_service
GreenplumHighConnectionsRatio	Количество текущих соединений Greenplum достигло 80% от возможного	greenplum_current_connections_ratio > 80 and greenplum_current_connections_ratio < 90	30m	warning	Количество текущих соединений Greenplum достигло 80% от возможного	МБД.Г	func_service
GreenplumCriticalConnectionsRatio	Количество текущих соединений Greenplum достигло 90% от возможного	greenplum_current_connections_ratio > 90	30m	critical	Количество текущих соединений Greenplum достигло 90% от возможного	МБД.Г	func_service
GreenplumHighSpillSize	Общий объем Spill-файлов Greenplum превысил 30 GB	greenplum_spill_size_total > 30 and greenplum_spill_size_total < 50	30m	warning	Общий объем Spill-файлов Greenplum превысил 30 GB	МБД.Г	func_service
GreenplumCriticalSpillSize	Общий объем Spill-файлов Greenplum превысил 50 GB	greenplum_spill_size_total > 50	30m	critical	Общий объем Spill-файлов Greenplum превысил 50 GB	МБД.Г	func_service
GreenplumMasterDown	Ведущий узел Greenplum находится в отключенном состоянии	greenplum_master_up == 0	0m	critical	Ведущий узел Greenplum находится в отключенном состоянии	МБД.Г	func_service
GreenplumPrimarySegmentsDown	Имеются primary-сегменты Greenplum в статусе down	greenplum_primary_segments_down_count > 0	0m	critical	Один и более primary-сегментов Greenplum находятся в статусе down	МБД.Г	func_service
GreenplumMirrorSegmentsDown	Имеются mirror-сегменты Greenplum в статусе down	greenplum_mirror_segments_down_count > 0	0m	critical	Один и более mirror-сегментов Greenplum находятся в статусе down	МБД.Г	func_service
GreenplumPanicResetErrors	Имеются ошибки типа “Panic” и “Reset” в pg_log Greenplum	count_over_time(greenplum_pg_log_reset_panic== 1[1h]) > 1	0m	critical	За последний час в pg_log были зафиксированы ошибки типа Panic и Reset	МБД.Г	func_service
GreenplumLongActiveSessions	Имеются подключения к Greenplum, находящиеся в активном состоянии более часа	greenplum_active_session_for_hour_count > 0	5m	warning	Имеются активные подключения к Greenplum, находящиеся в этом статусе более часа	МБД.Г	func_service
GreenplumLongSessions	Имеются подключения к Greenplum, находящиеся в своём состоянии более часа	greenplum_session_for_hour_count > 0	5m	warning	Имеются подключения к Greenplum, не менявшие свой статус более часа	МБД.Г	func_service
GreenplumHighLocksCount	Имеется больше 10 блокировок в БД Greenplum	greenplum_locks_count > 10 and greenplum_locks_count < 20	0m	warning	Имеется больше 10 блокировок в БД Greenplum	МБД.Г	func_service
GreenplumCriticalLocksCount	Имеется больше 20 блокировок в БД Greenplum	greenplum_locks_count > 20	0m	critical	Имеется больше 20 блокировок в БД Greenplum	МБД.Г	func_service
HadoopWarningMemHeapUsed	Hadoop: объём используемой памяти heap занимает более 70% от макс. значения	((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.7 and (hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) < 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.7 and (hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) < 0.9)	5m	warning	Объём используемой памяти heap БД Hadoop занимает более 70% от максимального значения	МБД.Х	func_service
HadoopCriticalMemHeapUsed	Hadoop: объём используемой памяти heap занимает более 90% от макс. значения	((hadoop_jvm_metrics_mem_heap_used_m / hadoop_jvm_metrics_mem_heap_max_m) > 0.9) or ((hadoop_memory_heap_memory_usage_used / hadoop_memory_heap_memory_usage_max) > 0.9)	5m	critical	Объём используемой памяти heap БД Hadoop занимает более 90% от максимального	МБД.Х	func_service
HadoopWarningCapacityUsed	Hadoop: общий объём используемого пространства для хранения данных занимает 70% от макс. значения	(hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.7 and (hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) < 0.9	5m	warning	Общий объём используемого пространства для хранения данных БД Hadoop занимает 70% от максимального значения	МБД.Х	func_service
HadoopCriticalCapacityUsed	Hadoop: общий объём используемого пространства для хранения данных занимает 90% от макс. значения	(hadoop_f_s_namesystem_capacity_used / hadoop_f_s_namesystem_capacity_total) > 0.9	5m	critical	Общий объём используемого пространства для хранения данных БД Hadoop занимает 90% от максимального значения	МБД.Х	func_service
HadoopMissingBlocks	Hadoop: имеются недостающие блоки данных	hadoop_f_s_namesystem_missing_blocks > 0	1m	critical	Имеются недостающие блоки данных БД Hadoop	МБД.Х	func_service
HadoopWarningNonHeapMemoryUsage	Hadoop: используемый объём памяти для non-heap областей в JVM занимает более 70% от макс. значения	(hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.7 and (hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) < 0.9	5m	warning	Объём памяти для non-heap областей в JVM БД Hadoop занимает более 70% от максимального значения	МБД.Х	func_service
HadoopCriticalNonHeapMemoryUsage	Hadoop: используемый объём памяти для non-heap областей в JVM занимает более 90% от макс. значения	(hadoop_memory_non_heap_memory_usage_used / hadoop_memory_non_heap_memory_usage_max) > 0.9	5m	critical	Объём памяти для non-heap областей в JVM БД Hadoop занимает более 70% от максимального значения	МБД.Х	func_service
HadoopWarningAllocatedVCores	Hadoop: количество выделенных ядер достигает более 70% от макс. значения	(hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.7 and (hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) < 0.9	5m	warning	Количество выделенных ядер БД Hadoop достигает более 70% от максимального значения	МБД.Х	func_service
HadoopCriticalAllocatedVCores	Hadoop: количество выделенных ядер достигает более 90% от макс. значения	(hadoop_node_manager_metrics_available_v_cores / (hadoop_node_manager_metrics_available_v_cores + hadoop_node_manager_metrics_allocated_v_cores)) > 0.9	5m	critical	Количество выделенных ядер БД Hadoop достигает более 90% от максимального значения	МБД.Х	func_service
HadoopWarningAllocatedGB	Hadoop: количество выделенной памяти в ГБ достигает более 70% от макс. значения	(hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.7 and (hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) < 0.9	5m	warning	Количество выделенной памяти в ГБ БД Hadoop достигает более 70% от максимального значения	МБД.Х	func_service
HadoopCriticalAllocatedGB	Hadoop: количество выделенной памяти в ГБ достигает более 90% от макс. значения	(hadoop_node_manager_metrics_available_g_b / (hadoop_node_manager_metrics_available_g_b + hadoop_node_manager_metrics_allocated_g_b)) > 0.9	5m	critical	Количество выделенной памяти в ГБ БД Hadoop достигает более 90% от максимального значения	МБД.Х	func_service
KafkaMaxLag	Наблюдается рост максимальной задержки Kafka	increase(kafka_replica_manager_max_lag[5m]) > 0	0s	critical	Наблюдается рост максимальной задержки Kafka в течение пяти минут	МБД.С	func_service
KafkaOfflineReplica	Более одной реплики Kafka находится в состоянии Offline	kafka_replica_manager_offline_replica_count > 1	0s	critical	Более одной реплики Kafka находится в состоянии Offline	МБД.С	func_service
KafkaOfflinePartitions	Имеется более одной недоступной партиции Kafka	kafka_controller_offline_partitions_count > 1	0s	critical	Имеется более одной недоступной для чтения и записи партиции	МБД.С	func_service
KafkaWarningHeapMemoryUsage	Использовано более 70% объёма динамической памяти Kafka	(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.7 and (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) < 0.9	5m	warning	Использовано более 70% объёма динамической памяти	МБД.С	func_service
KafkaCriticalHeapMemoryUsage	Использовано более 90% объёма динамической памяти Kafka	(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.9	5m	critical	Использовано более 90% объёма динамической памяти	МБД.С	func_service
KafkaZooKeeperExpires	Имеется более одного истёкшего срока действия сеанса ZooKeeper (Kafka)	kafka_session_zookeeper_expires_per_sec{rate=“Count”} > 1	0s	critical	Имеется более одного истёкшего срока действия сеанса ZooKeeper	МБД.С	func_service
NodeOutOfMemory	Память узла почти заполнена	node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10	2m	warning	Осталось менее 10% свободной памяти узла	Все	server
NodeMemoryUnderMemoryPressure	Системе не хватает свободной памяти на узле	rate(node_vmstat_pgmajfault[1m]) > 1000	2m	warning	Большая нагрузка на память узла. Слишком часто происходят отказы главной страницы	Все	server
NodeMemoryIsUnderutilized	Недоиспользование памяти узла	(100 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes * 100) < 20)	4d	info	Память узла заполнена менее чем на 20% за последние 4 дня	Все	server
NodeUnusualNetworkThroughputIn	Необычная активность сети на узле (входящие данные)	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100	5m	warning	Сеть начала резко получать более 100 мб/с	Все	server, network
NodeUnusualNetworkThroughputOut	Необычная активность сети на узле (исходящие данные)	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100	5m	warning	Сеть начала резко отдавать более 100 мб/с	Все	server, network
NodeUnusualDiskReadRate	Необычная активность при чтении диска на узле	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50	5m	warning	Диск начал резко читать более 50 мб/с	Все	server
NodeUnusualDiskWriteRate	Необычная активность при записи на диск на узле	sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50	5m	warning	Диск начал резко писать более 50 мб/с	Все	server
NodeDiskWillFillIn24Hours	Дисковое пространство на узле почти заполнено	(node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~“tmpfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0	2m	warning	Дисковое пространство на хосте почти заполнено и закончится в течение 24 часов	Все	server
NodeOutOfInodes	На диске на узле почти закончились свободные индексные дескрипторы	node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!=“msdosfs”} == 0	2m	warning	Индексные дескрипторы заполнены на 90%	Все	server
NodeFilesystemDeviceError	Ошибка файловой системы на узле	node_filesystem_device_error == 1	2m	critical	Ошибка файловой системы	Все	server
NodeInodesWillFillIn24Hours	Индексные дескрипторы на узле скоро заполнятся	node_filesystem_files_free{fstype!=“msdosfs”} / node_filesystem_files{fstype!=“msdosfs”} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!=“msdosfs”}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!=“msdosfs”} == 0	2m	warning	Индексные дескрипторы заполнятся в течение 24 часов	Все	server
NodeUnusualDiskReadLatency	Необычная задержка при чтении файлов с диска на узле	rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0	2m	warning	Задержка при чтении файлов с диска выше 100 мс	Все	server
NodeUnusualDiskWriteLatency	Необычная задержка при записи файлов на диск на узле	rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0	2m	warning	Задержка при записи файлов на диск выше 100 мс	Все	server
NodeHighCpuLoad	Большая нагрузка на ЦП на узле	avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!=“idle”}[2m]) * 100) > 80	2m	warning	ЦП загружен на более чем 80%	Все	server
NodeCpuIsUnderutilized	Слишком низкая загрузка на процессор на узле	100 - (rate(node_cpu_seconds_total{mode=“idle”}[30m]) * 100) < 20	4d	warning	ЦП загружен менее чем на 20% последние 4 дня	Все	server
NodeCpuStealNoisyNeighbor	Нехватка процессорного времени на узле	avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“steal”}[5m])) * 100 > 10	0m	warning	Нехватка процессорного времени превышает 10%. “Шумный сосед” крадёт слишком много ресурсов	Все	server
NodeCpuHighIowait	Iowat ЦП на узле превышает 10%	avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode=“iowait”}[5m])) * 100 > 10	0m	warning	Iowat ЦП превышает 10%	Все	server
NodeUnusualDiskIo	Необычная активность IO на диске хоста	rate(node_disk_io_time_seconds_total[1m]) > 0.5	5m	warning	Время, проведённое в IO, более 5 минут	Все	server
NodeContextSwitchingHigh	Часто происходит смена контекста на хосте	(rate(node_context_switches_total[15m])/count (node_cpu_seconds_total{mode=“idle”}))/(rate(node_context_switches_total[1d])/count (node_cpu_seconds_total{mode=“idle”})) > 2	0m	warning	Частота смены контекста на хосте активно растёт	Все	server
NodeSwapIsFillingUp	SWAP хоста заполняется	(1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 80	2m	warning	SWAP хоста заполнен более чем на 80%	Все	server
NodeOomKillDetected	Out of Memory Killer начал работу	increase(node_vmstat_oom_kill[1m]) > 0	0m	warning	Out of Memory Killer начал работу	Все	server
NodeNetworkReceiveErrors	Рост сетевых ошибок на получение на хосте	rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01	2m	warning	В последние две минуты увеличилось число сетевых ошибок на хосте на получение	Все	server
NodeNetworkTransmitErrors	Рост сетевых ошибок на передачу на хосте	rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01	2m	warning	В последние две минуты увеличилось число сетевых ошибок на хосте на передачу	Все	server
NodeNetworkInterfaceSaturated	Интерфейс сети на узле перегружен	(rate(node_network_receive_bytes_total{device!~"^tap.\|^vnet.\|^veth.\|^tun."}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.\|^vnet.\|^veth.\|^tun."}[1m])) / node_network_speed_bytes{device!~"^tap.\|^vnet.\|^veth.\|^tun."} > 0.8 < 10000	1m	warning	Интерфейс сети перегружен	Все	server
NodeClockSkew	Системное время на узле рассинхронизировано	(node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0)	10m	warning	Системное время рассинхронизировано на более чем 0.05 секунд	Все	server
NodeClockNotSynchronising	Время на сервере не синхронизируется	(node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0)	2m	warning	Время на сервере не синхронизируется	Все	server
PicodataReadOnlyState	Инстанс Picodata находится в режиме только для чтения	tnt_read_only == 1	0m	critical	Инстанс Picodata находится в режиме только для чтения	МБД.Т	func_service
PicodataElectionState	Узел Picodata задействован в выборе лидера и принял соответствующее состояние	tnt_election_state == 1	0m	critical	Узел Picodata задействован в выборе лидера и принял соответствующее состояние	МБД.Т	func_service
PostgresHighActiveSessionsCount	Количество активных сессий достигло 100 (PG)	pg_stat_activity_count > 100 and pg_stat_activity_count < 500	30s	warning	Количество активных сессий достигло 100	МБД.П	func_service
PostgresCriticalActiveSessionsCount	Количество активных сессий достигло 500 (PG)	pg_stat_activity_count > 500	30s	critical	Количество активных сессий достигло 500	МБД.П	func_service
PostgresHighReplicationLag	Лаг репликации достиг значения 50 (PG)	pg_replication_lag > 50 and pg_replication_lag < 100	5m	warning	Лаг репликации достиг значения 50	МБД.П	func_service
PostgresCriticalReplicationLag	Лаг репликации достиг значения 100 (PG)	pg_replication_lag > 100	5m	critical	Лаг репликации достиг значения 100	МБД.П	func_service
PostgresHighDatabaseTemp	Используется более 50 GB TEMP (PG)	pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100	5m	warning	Используется более 50 GB TEMP	МБД.П	func_service
PostgresCriticalDatabaseTemp	Используется более 100 GB TEMP (PG)	pg_stat_database_temp_bytes > 100	5m	critical	Используется более 100 GB TEMP	МБД.П	func_service
SnmpDataNotReceived	Не поступают данные с устройства SNMP	up{job=~“snmp.*”} != 1	5m	critical	Не удалось собрать данные с SNMP-устройства	Все	network
SnmpLongSysUpTime	SNMP-устройство работает без перезапуска более 2.5 лет	sysUpTime > 7776000000	2m	warning	SNMP-устройство работает без перезапуска более 2.5 лет	Все	network
SnmpPortChangedState	Порт изменил своё состояние	delta(ifOperStatus[15m]) != 0	2m	critical	В последние 15 минут порт изменил своё состояние. Возможно, он выключен или перезапущен	Все	network
SnmpHighInComingTraffic	Входящий трафик порта коммутатора приближается к пороговому значению	(rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0	6m	info	Входящий трафик порта коммутатора выше 75% от пропускной способности	Все	network
SnmpHighOutComingTraffic	Исходящий трафик порта коммутатора приближается к пороговому значению	(rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0	6m	info	Исходящий трафик порта коммутатора выше 75% от пропускной способности	Все	network
SnmpAnomalyTraffic	Замечено аномальное увеличение трафика	rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w))	12m	info	Замечено аномальное увеличение трафика	Все	network
SnmpIncreaseInComingTrafficError	Рост количества ошибок на входящий трафик	rate(ifInErrors[4m]) > 10	6m	warning	Количество ошибок на входящий трафик превысило 10	Все	network
SnmpIncreaseOutComingTrafficError	Рост количества ошибок на исходящий трафик	rate(ifOutErrors[4m]) > 10	6m	warning	Количество ошибок на исходящий трафик превысило 10	Все	network
SnmpIncreaseDiscardsInComingPacket	Рост количества отклонённых пакетов на исходящий трафик	rate(ifOutDiscards[4m]) > 10	6m	warning	Количество отклонённых пакетов на исходящий трафик превысило 10	Все	network
SnmpIncreaseDiscardsOutComingPacket	Рост количества отклонённых пакетов на входящий трафик	rate(ifInDiscards[4m]) > 10	6m	warning	Количество отклонённых пакетов на входящий трафик превысило 10	Все	network
SnmpIncreaseInComingPacket	Большое количество передаваемых пакетов на входящий трафик	rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000	6m	warning	Зафиксирован рост числа передаваемых пакетов на входящий трафик	Все	network
SnmpIncreaseOutComingPacket	Большое количество передаваемых пакетов на исходящий трафик	rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000	6m	warning	Зафиксирован рост числа передаваемых пакетов на исходящий трафик	Все	network
SpectrumHighAutovacuumProcCount	Активных процессов автовакуума больше 3 (PG)	spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6	1m	warning	Активных процессов автовакуума больше 3	МБД.П	func_service
SpectrumCriticalAutovacuumProcCount	Активных процессов автовакуума больше 6 (PG)	spectrum_autovacuum_proc_count > 6	1m	warning	Активных процессов автовакуума больше 6	МБД.П	func_service
EraDiskNotAvailable	Диск недоступен	era_disk_state == 0	4h	critical	Диск недоступен	МБД.П	storage
EraCouldNotReconstruct	ERA RAID не может завершить реконструкцию	era_raid_state_initialization == 10	1h	critical	RAID не может завершить реконструкцию	МБД.П	storage
EraCouldNotRecover	ERA RAID не смог восстановиться	era_raid_state_initialization == 11	1h	critical	RAID не смог восстановиться	МБД.П	storage
EraInitialNeeds	ERA RAID нуждается в инициализации	era_raid_state_initialization == 2	30m	warning	RAID нуждается в инициализации	МБД.П	storage
EraReconstructNeeds	ERA RAID нуждается в реконструкции	era_raid_state_initialization == 7	4h	critical	RAID нуждается в реконструкции	МБД.П	storage
EraNotAvailable	ERA RAID недоступен	era_raid_state_availability == 0	30m	critical	RAID недоступен	МБД.П	storage
EraHighDiskWear	Существенный износ диска	era_disk_wear > 75	24h	warning	Существенный износ диска	МБД.П	storage
EraCriticalDiskWear	Критический износ диска	era_disk_wear > 90	4h	critical	Критический износ диска	МБД.П	storage
EraLicenseExpire	Месяц до истечения лицензии ERA	((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7)	0s	warning	До истечения срока действия лицензии остался месяц	МБД.П	storage
EraLicenseExpireSoon	Неделя до истечения лицензии ERA	((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1	0s	critical	До истечения срока действия лицензии осталась неделя	МБД.П	storage
EraLicenseNotActive	Лицензия неактивна	era_license_status != 1	0s	critical	Лицензия неактивна	МБД.П	storage
GreenplumHighPartitionRatio	Разделы Greenplum занимают более 80% доступного пространства	greenplum_partition_ratio > 80 and greenplum_partition_ratio < 90	30m	warning	Разделы Greenplum занимают более 80% доступного пространства	МБД.Г	func_service
GreenplumCriticalPartitionRatio	Разделы Greenplum занимают более 90% доступного пространства	greenplum_partition_ratio > 90	30m	critical	Разделы Greenplum занимают более 90% доступного пространства	МБД.Г	func_service
GreenplumWrongClusterStatus	Greenplum не находится в обычном одиночном или многопользовательском режиме	greenplum_cluster_status != 1 and greenplum_cluster_status != 0	0m	critical	Greenplum не находится в обычном одиночном или многопользовательском режиме. Возможно, он в режиме администратора или любом другом режиме	МБД.Г	func_service
GreenplumOldLogCount	Имеются файлы pg_log (Greenplum) старше 3 месяцев	greenplum_pg_log_three_month_old_count > 0	0m	warning	Есть файлы pg_log Greenplum старше 3 месяцев	МБД.Г	func_service
GreenplumVeryOldLogCount	Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) за текущий день превысило 100	greenplum_pg_log_errors_fatal > 100 and greenplum_pg_log_errors_fatal < 300	0m	warning	В pg_log (Greenplum) количество записей с уровнем ERROR и FATAL больше 100	МБД.Г	func_service
GreenplumFatalLogErrors	Количество записей с уровнем “ERROR” и “FATAL” в pg_log (Greenplum) за текущий день превысило 300	greenplum_pg_log_errors_fatal > 300	0m	critical	В pg_log (Greenplum) количество записей с уровнем ERROR и FATAL больше 300	МБД.Г	func_service
LibvirtDomainMemoryWarning	Процент использования памяти доменом Libvirt достиг 80%	libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90	5m	warning	У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value }}	МВ.ДИ	server
LibvirtDomainMemoryCritical	Процент использования памяти доменом Libvirt достиг 90%	libvirt_domain_memory_stats_used_percent > 90	5m	critical	У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value }}	МВ.ДИ	server
BVSStatusCritical	Узел BVS МВ.ДИ находится в статусе, отличном от Online	dynamix_bvs_node_status!=1	0m	critical	Узел BVS {{ $labels._node_id }} ПАКа {{ $labels._pak_id }} находится в статусе {{ $value }}	МВ.ДИ	server
DynamixVMTechStatusWarning	Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе	dynamix_vm_tech_status != (1 and 7)	0m	warning	Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе {{ $value }}	МВ.ДИ	func_service
DynamixVMTechStatusCritical	Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN	dynamix_vm_tech_status == 7	0m	critical	Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе DOWN	МВ.ДИ	func_service
DynamixVMWorkingStatusWarning	Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности	dynamix_vm_status != (1 and 0)	0m	warning	Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}	МВ.ДИ	func_service
DynamixNodeStatusWarning	Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности	dynamix_node_status != (1 and 0)	0m	warning	Узел Dynamix {{ $labels.node_name }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}	МВ.ДИ	func_service
TatlinDiskStatusWarning	Диск СХД Татлин находится в статусе Warning	tatlinHwDiskStateCode == 3	5m	warning	Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinDiskStatusError	Диск СХД Татлин находится в статусе Error	tatlinHwDiskStateCode == 2	5m	critical	Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinDiskStatusInfo	Диск СХД Татлин находится в статусе Info	tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3	5m	info	Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinDiskBayFailure	Дисковая полка Татлин находится в статусе Error	tatlinHwDiskbayStateCode != 1	5m	critical	Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinDiskBayLost	Потеряна связь с дисковой полкой СХД Татлин	lag(tatlinHwDiskbaySn{}[2h]) > 15m	0s	critical	Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinEthernetPortWarning	Порт Ethernet СХД Татлин находится в статусе Warning	tatlinHwEthStateCode == 3	5m	warning	Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage, network
TatlinEthernetPortError	Порт Ethernet СХД Татлин находится в статусе Error	tatlinHwEthStateCode == 2	5m	critical	Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage, network
TatlinEthernetPortInfo	Порт Ethernet СХД Татлин находится в статусе info	tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3	5m	info	Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage, network
TatlinFibreChannelPortWarning	Порт Fibre Channel СХД Татлин находится в статусе Warning	tatlinHwFcStateCode == 3	5m	warning	Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage, network
TatlinFibreChannelPortError	Порт Fibre Channel СХД Татлин находится в статусе Error	tatlinHwFcStateCode == 2	5m	critical	Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage, network
TatlinFibreChannelPortInfo	Порт Fibre Channel СХД Татлин находится в статусе Info	tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3	5m	info	Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage, network
TatlinReplicationManagementNetworkCritical	Сеть управления репликациями СХД Татлин находится в статусе Failure	tatlinConfigReplicationStorageMgmtNetwork == 4	5m	critical	Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinReplicationNetworkCritical	Сеть репликаций СХД Татлин находится в статусе Failure	tatlinConfigReplicationStorageReplicationNetwork != 1	5m	critical	Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinPoolFreeSpaceRunningOutWarning	Заканчивается свободное место СХД Татлин	tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold	30m	warning	“{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})”	МВ.ДИ	storage
TatlinPoolFreeSpaceRunningOutCritical	Свободное место СХД Татлин почти закончилось	tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold	30m	critical	“{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})”	МВ.ДИ	storage
TatlinResourceFreeSpaceRunningOutCritical	Свободное место ресурса СХД Татлин почти закончилось	(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))	30m	critical	“{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})”	МВ.ДИ	storage
TatlinDriveCapacityFailure	Ошибка объёма накопителя СХД Татлин	tatlinConfigDriveFailed > 0	30m	critical	“{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})”	МВ.ДИ	storage
TatlinDriveFailed	Имеются ошибки накопителя СХД Татлин	tatlinConfigDriveFailedCount > 0	30m	critical	Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinPoolOversubscription	Пул СХД Татлин находится в состоянии избыточного выделения ресурсов	100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, ’tatlinConfigPoolName’, ’tatlinConfigResPool’)) > 100	30m	critical	У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value \| humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage
TatlinNoResponse	СХД Татлин не отвечает по SNMP	lag(tatlinVersion{}[2h]) > 15m	0s	critical	СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value	humanizeDuration }}	МВ.ДИ
TatlinCPUUtilizationWarning	Загрузка процессора СХД Татлин достигла 90%	(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)	5m	warning	Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%	МВ.ДИ	storage
TatlinCPUUtilizationCritical	Загрузка процессора СХД Татлин достигла 95%	100 - tatlinPerfCpuIdle >= 95	2m	critical	Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%	МВ.ДИ	storage
StorageProcessorFailure	Ошибка процессора СХД	tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0	5m	critical	Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})	МВ.ДИ	storage

3. Правила оповещения Picodata#

Для Picodata нельзя определить универсальные значения, по которым нужно оповещать пользователя, поэтому предлагается шаблон, который позволяет пользователю создать собственные правила оповещения и выставить интересующие значения в зависимости от развёрнутого инстанса.

Название правила	PromQL выражение	Период	Важность	Шаблон	Тип ПАК
Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение	tnt_cpu_user_time > X	10m	warning	Общее время, проведенное процессором Picodata в режиме пользователя, превысило допустимое значение	МБД.Т
Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение	tnt_cpu_system_time > X	10m	warning	Общее время, проведенное процессором Picodata в режиме ядра, превысило допустимое значение	МБД.Т
Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение	tnt_slab_arena_used > X	10m	warning	Общее количество данных, занятое ареной slab Picodata, превысило допустимое значение	МБД.Т
Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение	tnt_slab_arena_used_ratio > X	10m	warning	Доля памяти Picodata, выделенная для slab allocator, которая на данный момент используется, превысила допустимое значение	МБД.Т
Объем данных, хранимых в файлах Picodata, превысил допустимое значение	tnt_vinyl_disk_data_size > X	10m	warning	Объем данных, хранимых в файлах Picodata, превысил допустимое значение	МБД.Т
Объем индекса, хранимого в файлах Picodata, превысил допустимое значение	tnt_vinyl_disk_index_size > X	10m	warning	Объем индекса, хранимого в файлах Picodata, превысил допустимое значение	МБД.Т
Размер индексов страниц данного инстанса Picodata превысил допустимое значение	tnt_vinyl_memory_page_index > X	10m	warning	Размер индексов страниц данного инстанса Picodata превысил допустимое значение	МБД.Т
Общее количество запросов Picodata превысило допустимое значение	tnt_net_requests_total > X	10m	warning	Общее количество запросов Picodata превысило допустимое значение	МБД.Т
Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение	tnt_net_requests_in_progress_current > X	10m	warning	Количество запросов Picodata, обрабатываемых в данный момент в потоке транзакций, превысило допустимое значение	МБД.Т
Общее количество соединений с Picodata превысило допустимое значение	tnt_net_connections_total > X	10m	warning	Общее количество соединений с Picodata превысило допустимое значение	МБД.Т
Текущее количество соединений с Picodata превысило допустимое значение	tnt_net_connections_current > X	10m	warning	Текущее количество соединений с Picodata превысило допустимое значение	МБД.Т
Общее количество освобожденной памяти Picodata превысило допустимое значение	lj_gc_freed_total >	10m	warning	Общее количество освобожденной памяти Picodata превысило допустимое значение	МБД.Т
Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение	lj_gc_steps_pause_total > X	10m	warning	Общее количество шагов инкрементальной сборки мусора Picodata превысило допустимое значение	МБД.Т
Количество фиксаций транзакций в Picodata превысило допустимое значение	tnt_vinyl_tx_commit > X	10m	warning	Количество фиксаций транзакций в Picodata превысило допустимое значение	МБД.Т
Количество откатов транзакций в Picodata превысило допустимое значение	tnt_vinyl_tx_rollback > X	10m	warning	Количество откатов транзакций в Picodata превысило допустимое значение	МБД.Т
Количество потоков на инстансе Picodata превысило допустимое значение	tnt_fiber_amount > X	10m	warning	Количество потоков на инстансе Picodata превысило допустимое значение	МБД.Т
Объём используемой памяти потоков Picodata превысил допустимое значение	tnt_fiber_memused > X	10m	warning	Объём используемой памяти потоков Picodata превысил допустимое значение	МБД.Т

4. Правила оповещения ClickHouse#

Для мониторинга доступности узлов ClickHouse используется blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Пользователю предлагается настроить его самостоятельно по данному шаблону:

Название правила	PromQL выражение	Период	Важность	Шаблон	Тип ПАК
Отсутствует связь с сервером ClickHouse	‘probe_success{instance=“X:8123”} == 0’	0m	info	Отсутствует связь с сервером ClickHouse	МБД.КХ
Связь с сервером ClickHouse отсутствует более 5 минут	‘probe_success{instance=“X:8123”} == 0’	5m	warning	Связь с сервером ClickHouse отсутствует более 5 минут	МБД.КХ
Отсутствует связь с сервером реплики ClickHouse	‘probe_success{instance=“X:8123/replicas_status”} == 0’	5m	warning	Отсутствует связь с сервером реплики ClickHouse	МБД.КХ