Данные правила применимы для ПАК МБД.КХ.
Предустановленные правила#
Эти правила доступны сразу после установки необходимых плагинов.
ClickHouseReplicasMaxDelay#
Превышение максимальной разницы в секундах между свежей реплицированной частью и свежей частью данных.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
clickhouse_replicas_max_delay_seconds > 60
Шаблон сообщения:
Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд. Узел {{ $labels._node_id}}, ПАК {{$labels._pak_id}}
ClickHouseReplicationStuckTasks#
Имеются зависшие задачи репликации ClickHouse.
Период : 5m
(5 минут).
Важность : warning.
Категория: func_service
.
Выражение PromQL:
clickhouse_replication_stuck_task_count > 0
Шаблон сообщения:
Имеются зависшие задачи репликации ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
ClickHouseServerProcessInfo#
Отсутствует процесс сервера ClickHouse.
Период: 0m
(без ожидания).
Важность: info.
Категория: func_service
.
Выражение PromQL:
namedprocess_namegroup_num_procs{groupname="clickhouse"} < 0
Шаблон сообщения:
На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} отсутствует процесс сервера ClickHouse
ClickHouseServerProcessWarning#
Процесс сервера ClickHouse отсутствует более 5 минут.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
namedprocess_namegroup_num_procs{groupname="clickhouse"} < 0
Шаблон сообщения:
На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} процесс сервера ClickHouse отсутствует более 5 минут
ClickHouseServerRestarted#
ClickHouse был перезапущен.
Период: 0m
(без ожидания).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
clickhouse_uptime < clickhouse_uptime offset 1m
Шаблон сообщения:
ClickHouse был перезапущен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
ClickHouseSimultaneousQueriesCritical#
Количество одновременных запросов к БД ClickHouse достигло значения 100.
Период: 30s
(30 секунд).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
clickhouse_simultaneous_queries >= 100
Шаблон сообщения:
Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 100
ClickHouseSimultaneousQueriesWarning#
Количество одновременных запросов к БД ClickHouse достигло значения 90.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Запрос PromQL:
clickhouse_simultaneous_queries > 90
Шаблон сообщения:
Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} достигло значения 90
ClickHouseZooKeeperOutstandingRequest#
Количество ожидающих запросов ZooKeeper превысило 50.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Запрос PromQL:
clickhouse_zookeeper_outstanding_request_count > 50
Шаблон сообщения:
Количество ожидающих запросов ZooKeeper на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} превысило 50
ClickHouseZooKeeperResponse#
Время ответа ZooKeeper превысило 1000 микросекунд.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Запрос PromQL:
clickhouse_zookeeper_response_microseconds > 0
Шаблон сообщения:
На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} время ответа ZooKeeper превысило 1000 микросекунд
ClickHouseZooKeeperStatus#
ZooKeeper недоступен.
Период: 0m
(ноль минут).
Важность: critical.
Категория: func_service
.
Запрос PromQL:
clickhouse_zookeeper_status == 0
Шаблон сообщения:
ZooKeeper ClickHouse недоступен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
Правила blackbox_exporter#
Для мониторинга доступности узлов ClickHouse используется плагин blackbox_exporter , который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Создайте нужные правила самостоятельно, используя приведённые ниже параметры.
Отсутствует связь с сервером ClickHouse#
Период: 0m
(без ожидания).
Важность: info.
Категория: func_service
.
Запрос PromQL:
probe_success{instance="X:8123"} == 0
Шаблон сообщения:
Отсутствует связь с сервером ClickHouse
Связь с сервером ClickHouse отсутствует более 5 минут#
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Запрос PromQL:
probe_success{instance="X:8123"} == 0
Шаблон сообщения:
Связь с сервером ClickHouse отсутствует более 5 минут
Отсутствует связь с сервером реплики ClickHouse#
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Запрос PromQL:
probe_success{instance="X:8123/replicas_status"} == 0
Шаблон сообщения:
Отсутствует связь с сервером реплики ClickHouse