Правила оповещения МБД.С

Данные правила применимы для ПАК МБД.С.

KafkaCriticalHeapMemoryUsage#

Использовано более 90% объёма динамической памяти Kafka.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.9

Шаблон сообщения:

Использовано более 90% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}}

KafkaMaxLag#

Наблюдается рост максимальной задержки Kafka.

Период: 0s (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(kafka_replica_manager_max_lag[5m]) > 0

Шаблон сообщения:

Наблюдается рост максимальной задержки Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} в течение пяти минут

KafkaOfflinePartitions#

Имеется более одной недоступной партиции Kafka.

Период: 0s (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

kafka_controller_offline_partitions_count > 1

Шаблон сообщения:

Имеется более одной недоступной для чтения и записи партиции на хосте {{ $labels.host }} кластера {{ $labels.cluster}}

KafkaOfflineReplica#

Более одной реплики Kafka находится в состоянии Offline.

Период: 0s (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

kafka_replica_manager_offline_replica_count > 1

Шаблон сообщения:

Более одной реплики Kafka на хосте {{ $labels.host }} кластера {{ $labels.cluster}} находится в состоянии Offline

KafkaWarningHeapMemoryUsage#

Использовано более 70% объёма динамической памяти Kafka.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) > 0.7 and (kafka_memory_heap_memory_usage_used / kafka_memory_heap_memory_usage_max) < 0.9

Шаблон сообщения:

Использовано более 70% объёма динамической памяти на хосте {{ $labels.host }} кластера {{ $labels.cluster}}

KafkaZooKeeperExpires#

Имеется более одного истёкшего срока действия сеанса ZooKeeper.

Период: 0s (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

kafka_session_zookeeper_expires_per_sec{rate="Count"} > 1

Шаблон сообщения:

Имеется более одного истёкшего срока действия сеанса ZooKeeper на хосте {{ $labels.host }} кластера {{ $labels.cluster}}