Правила оповещения МБД.Г

Данные правила применимы для ПАК МБД.Г.

GreenplumCriticalConnectionsRatio#

Количество текущих соединений Greenplum достигло 90% от возможного.

Период: 30m (30 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_current_connections_ratio > 90

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество текущих соединений Greenplum достигло 90% от возможного

GreenplumCriticalLocksCount#

Имеется больше 20 блокировок в БД Greenplum.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_locks_count > 20

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеется больше 20 блокировок в БД Greenplum

GreenplumCriticalPartitionRatio#

Разделы Greenplum занимают более 90% доступного пространства.

Период: 30m.

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_partition_ratio > 90

Шаблон сообщения:

Разделы Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} занимают {{ $value }}% доступного пространства

GreenplumCriticalSpillSize#

Общий объем Spill-файлов Greenplum превысил 50 ГБ.

Период: 30m (30 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_spill_size_total > 50

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} общий объем Spill-файлов Greenplum превысил 50 GB

GreenplumFatalLogErrors#

В pg_log количество записей с уровнем ERROR и FATAL больше 300.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_pg_log_errors_fatal > 300

Шаблон сообщения:

Количество записей с уровнем "ERROR" и "FATAL" в pg_log (Greenplum) на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} за текущий день превысило 300

GreenplumHighConnectionsRatio#

Количество текущих соединений Greenplum достигло 80% от возможного.

Период: 30m (30 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_current_connections_ratio > 80 and greenplum_current_connections_ratio < 90

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество текущих соединений Greenplum достигло 80% от возможного

GreenplumHighLocksCount#

Имеется больше 10 блокировок в БД Greenplum.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_locks_count > 10 and greenplum_locks_count < 20

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеется больше 10 блокировок в БД Greenplum

GreenplumHighPartitionRatio#

Разделы Greenplum занимают более 80% доступного пространства.

Период: 30m (30 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_partition_ratio > 80 and greenplum_partition_ratio < 90

Шаблон сообщения:

Разделы Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} занимают {{ $value }}% доступного пространства

GreenplumHighSpillSize#

Общий объем Spill-файлов Greenplum превысил 30 ГБ.

Период: 30m (30 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_spill_size_total > 30 and greenplum_spill_size_total < 50

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} общий объем Spill-файлов Greenplum превысил 30 GB

GreenplumLongActiveSessions#

Имеются подключения к Greenplum, находящиеся в активном состоянии более часа.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_active_session_for_hour_count > 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеются активные подключения к Greenplum, находящиеся в этом статусе более часа

GreenplumLongSessions#

Имеются подключения к Greenplum, находящиеся в своём состоянии более часа.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_session_for_hour_count > 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} имеются подключения к Greenplum, не менявшие свой статус более часа

GreenplumMasterDown#

Ведущий узел Greenplum находится в отключенном состоянии.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_master_up == 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} ведущий узел Greenplum находится в отключенном состоянии

GreenplumMirrorSegmentsDown#

Имеются mirror-сегменты Greenplum в статусе down.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_mirror_segments_down_count > 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} один и более mirror-сегментов Greenplum находятся в статусе down

GreenplumOldLogCount#

Имеются файлы pg_log старше 3 месяцев.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_pg_log_three_month_old_count > 0

Шаблон сообщения:

Есть файлы pg_log Greenplum старше 3 месяцев на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

GreenplumPanicResetErrors#

Имеются ошибки типа Panic и Reset в pg_log Greenplum.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

count_over_time(greenplum_pg_log_reset_panic== 1[1h]) > 1

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} за последний час в pg_log были зафиксированы ошибки типа Panic и Reset

GreenplumPrimarySegmentsDown#

Имеются primary-сегменты Greenplum в статусе down.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_primary_segments_down_count > 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} один и более primary-сегментов Greenplum находятся в статусе down

GreenplumVeryOldLogCount#

Количество записей с уровнем ERROR и FATAL в pg_log за текущий день превысило 100.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

greenplum_pg_log_errors_fatal > 100 and greenplum_pg_log_errors_fatal < 300

Шаблон сообщения:

В pg_log (Greenplum) на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} количество записей с уровнем ERROR и FATAL больше 100

GreenplumWrongClusterStatus#

Greenplum не находится в обычном одиночном или многопользовательском режиме.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

greenplum_cluster_status != 1 and greenplum_cluster_status != 0

Шаблон сообщения:

Greenplum на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} находится в режиме {{ $value }}