Правила оповещения МБД.КХ

Данные правила применимы для ПАК МБД.КХ.

Предустановленные правила#

Эти правила доступны сразу после установки необходимых плагинов.

ClickHouseReplicasMaxDelay#

Превышение максимальной разницы в секундах между свежей реплицированной частью и свежей частью данных.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

clickhouse_replicas_max_delay_seconds > 60

Шаблон сообщения:

Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд. Узел {{ $labels._node_id}}, ПАК {{$labels._pak_id}}

ClickHouseReplicationStuckTasks#

Имеются зависшие задачи репликации ClickHouse.

Период : 5m (5 минут).

Важность : warning.

Категория: func_service.

Выражение PromQL:

clickhouse_replication_stuck_task_count > 0

Шаблон сообщения:

Имеются зависшие задачи репликации ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

ClickHouseServerProcessInfo#

Отсутствует процесс сервера ClickHouse.

Период: 0m (без ожидания).

Важность: info.

Категория: func_service.

Выражение PromQL:

namedprocess_namegroup_num_procs{groupname="clickhouse"} < 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} отсутствует процесс сервера ClickHouse

ClickHouseServerProcessWarning#

Процесс сервера ClickHouse отсутствует более 5 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

namedprocess_namegroup_num_procs{groupname="clickhouse"} < 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} процесс сервера ClickHouse отсутствует более 5 минут

ClickHouseServerRestarted#

ClickHouse был перезапущен.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

clickhouse_uptime < clickhouse_uptime offset 1m

Шаблон сообщения:

ClickHouse был перезапущен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

ClickHouseSimultaneousQueriesCritical#

Количество одновременных запросов к БД ClickHouse достигло значения 100.

Период: 30s (30 секунд).

Важность: critical.

Категория: func_service.

Выражение PromQL:

clickhouse_simultaneous_queries >= 100

Шаблон сообщения:

Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 100

ClickHouseSimultaneousQueriesWarning#

Количество одновременных запросов к БД ClickHouse достигло значения 90.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

clickhouse_simultaneous_queries > 90

Шаблон сообщения:

Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 90

ClickHouseZooKeeperOutstandingRequest#

Количество ожидающих запросов ZooKeeper превысило 50.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

clickhouse_zookeeper_outstanding_request_count > 50

Шаблон сообщения:

Количество ожидающих запросов ZooKeeper на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} превысило 50

ClickHouseZooKeeperResponse#

Время ответа ZooKeeper превысило 1000 микросекунд.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

clickhouse_zookeeper_response_microseconds > 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} время ответа ZooKeeper превысило 1000 микросекунд

ClickHouseZooKeeperStatus#

ZooKeeper недоступен.

Период: 0m (ноль минут).

Важность: critical.

Категория: func_service.

Запрос PromQL:

clickhouse_zookeeper_status == 0

Шаблон сообщения:

ZooKeeper ClickHouse недоступен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

Правила blackbox_exporter#

Для мониторинга доступности узлов ClickHouse используется плагин blackbox_exporter , который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Создайте нужные правила самостоятельно, используя приведённые ниже параметры.

Отсутствует связь с сервером ClickHouse#

Период: 0m (без ожидания).

Важность: info.

Категория: func_service.

Запрос PromQL:

probe_success{instance="X:8123"} == 0

Шаблон сообщения:

Отсутствует связь с сервером ClickHouse

Связь с сервером ClickHouse отсутствует более 5 минут#

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

probe_success{instance="X:8123"} == 0

Шаблон сообщения:

Связь с сервером ClickHouse отсутствует более 5 минут

Отсутствует связь с сервером реплики ClickHouse#

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

probe_success{instance="X:8123/replicas_status"} == 0

Шаблон сообщения:

Отсутствует связь с сервером реплики ClickHouse