Данные правила применимы для ПАК МБД.С.
KafkaCriticalHeapMemoryUsage#
Использовано более 90% объёма динамической памяти Kafka.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.9
Шаблон сообщения:
Использовано более 90% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}}
KafkaMaxLag#
Наблюдается рост максимальной задержки Kafka.
Период: 0s
(без ожидания).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(kafka_replica_manager_max_lag[5m]) > 0
Шаблон сообщения:
Наблюдается рост максимальной задержки Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} в течение пяти минут
KafkaOfflinePartitions#
Имеется более одной недоступной партиции Kafka.
Период: 0s
(без ожидания).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
kafka_controller_offline_partitions_count > 1
Шаблон сообщения:
Имеется более одной недоступной для чтения и записи партиции на хосте {{ $labels.host }} кластера {{ $labels.cluster}}
KafkaOfflineReplica#
Более одной реплики Kafka находится в состоянии Offline.
Период: 0s
(без ожидания).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
kafka_replica_manager_offline_replica_count > 1
Шаблон сообщения:
Более одной реплики Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} находится в состоянии Offline
KafkaWarningHeapMemoryUsage#
Использовано более 70% объёма динамической памяти Kafka.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.7 and (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) < 0.9
Шаблон сообщения:
Использовано более 70% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}}
KafkaZooKeeperExpires#
Имеется более одного истёкшего срока действия сеанса ZooKeeper.
Период: 0s
(без ожидания).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
kafka_session_zookeeper_expires_per_sec{rate="Count"} > 1
Шаблон сообщения:
Имеется более одного истёкшего срока действия сеанса ZooKeeper на хосте {{ $labels.host }} кластера {{ $labels.cluster}}