Правила оповещения МБД.П

Данные правила применимы для ПАК МБД.П.

EraCouldNotReconstruct#

ERA RAID не может завершить реконструкцию.

Период: 1h (1 час).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 10

Шаблон сообщения:

RAID {{ $labels.raid_name }} не может завершить реконструкцию, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraCouldNotRecover#

ERA RAID не смог восстановиться.

Период: 1h (1 час).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 11

Шаблон сообщения:

RAID {{ $labels.raid_name }} не смог восстановиться, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraCriticalDiskWear#

Критический износ диска.

Период: 4h (4 часа).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_disk_wear > 90

Шаблон сообщения:

Критический износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraDiskNotAvailable#

Диск ERA RAID недоступен.

Период: 4h (4 часа).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_disk_state == 0

Шаблон сообщения:

Диск {{ $labels.device_name }} RAID'а {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraHighDiskWear#

Существенный износ диска.

Период: 24h (24 часа).

Важность: warning.

Категория: storage.

Выражение PromQL:

era_disk_wear > 75

Шаблон сообщения:

Существенный износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraInitialNeeds#

ERA RAID нуждается в инициализации.

Период: 30m (30 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 2

Шаблон сообщения:

RAID {{ $labels.raid_name }} нуждается в инициализации, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraLicenseExpire#

Месяц до истечения лицензии ERA.

Период: 0s (без ожидания).

Важность: warning.

Категория: storage.

Выражение PromQL:

((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7)

Шаблон сообщения:

До истечения срока действия лицензии с ключом {{ $labels.license_key }} остался месяц, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraLicenseExpireSoon#

Неделя до истечения лицензии ERA.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1

Шаблон сообщения:

До истечения срока действия лицензии с ключом {{ $labels.license_key }} осталась неделя, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraLicenseNotActive#

Лицензия неактивна.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage..

Выражение PromQL:

era_license_status != 1

Шаблон сообщения:

Лицензия с ключом {{ $labels.license_key }} неактивна, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraNotAvailable#

ERA RAID недоступен (МБД.П)

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_availability == 0

Шаблон сообщения:

RAID {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraReconstructNeeds#

ERA RAID нуждается в реконструкции (МБД.П)

Период: 4h (4 часа).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 7

Шаблон сообщения:

RAID {{ $labels.raid_name }} нуждается в реконструкции, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

PostgresCriticalActiveSessionsCount#

Количество активных сессий достигло 500 (МБД.П)

Период: 30s (30 секунд).

Важность: critical.

Категория: func_service.

Выражение PromQL:

pg_stat_activity_count > 500

Шаблон сообщения:

Количество активных сессий достигло 500 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresCriticalDatabaseTemp#

Используется более 100 GB TEMP (МБД.П)

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

pg_stat_database_temp_bytes > 100

Шаблон сообщения:

Используется более 100 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresCriticalReplicationLag#

Лаг репликации достиг значения 100.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

pg_replication_lag > 100

Шаблон сообщения:

Лаг репликации достиг значения 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresHighActiveSessionsCount#

Количество активных сессий достигло 100.

Период: 30s (30 секунд).

Важность: warning.

Категория: func_service..

Выражение PromQL:

pg_stat_activity_count > 100 and pg_stat_activity_count < 500

Шаблон сообщения:

Количество активных сессий достигло 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresHighDatabaseTemp#

Используется более 50 ГБ TEMP.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100

Шаблон сообщения:

Используется более 50 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresHighReplicationLag#

Лаг репликации достиг значения 50.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

pg_replication_lag > 50 and pg_replication_lag < 100

Шаблон сообщения:

Лаг репликации достиг значения 50 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

RaidixDcPassive#

DC Raid находится в состоянии Passive.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_dc_status != 0

Шаблон сообщения:

DC у Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии Passive

RaidixDriveIsDirty#

Имеются метаданные другого Raid на диске.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_drive_dirty > 0

Шаблон сообщения:

На диске {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеются метаданные с кодом {{ $labels.dirty_code }}

RaidixNetworkVipDown#

VIP Raidix находится в выключенном состоянии

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_network_vip_up != 1

Шаблон сообщения:

VIP Raidix {{ $labels.vip_address }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в выключенном состоянии

RaidixRaidDegraded#

Raid находится в состоянии degraded

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_degraded > 0

Шаблон сообщения:

Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии degraded, значение {{ $value }}

RaidixRaidDown#

Raid находится в состоянии, отличном от Online

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_status != 1

Шаблон сообщения:

Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от Online

RaidixRaidShareBadStatus#

Raid имеет проблемы с общими ресурсами

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_share_status != 1

Шаблон сообщения:

Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеет проблемы с общими ресурсами

SpectrumCriticalAutovacuumProcCount#

Активных процессов автовакуума больше 6 .

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

spectrum_autovacuum_proc_count > 6

Шаблон сообщения:

Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 6 (PG)

SpectrumHighAutovacuumProcCount#

Активных процессов автовакуума больше 3 (МБД.П)

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6

Шаблон сообщения:

Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 3