Данные правила применимы для ПАК МБД.П.
EraCouldNotReconstruct#
ERA RAID не может завершить реконструкцию.
Период: 1h
(1 час).
Важность: critical.
Категория: storage
.
Выражение PromQL:
era_raid_state_initialization == 10
Шаблон сообщения:
RAID {{ $labels.raid_name }} не может завершить реконструкцию, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraCouldNotRecover#
ERA RAID не смог восстановиться.
Период: 1h
(1 час).
Важность: critical.
Категория: storage
.
Выражение PromQL:
era_raid_state_initialization == 11
Шаблон сообщения:
RAID {{ $labels.raid_name }} не смог восстановиться, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraCriticalDiskWear#
Критический износ диска.
Период: 4h
(4 часа).
Важность: critical.
Категория: storage
.
Выражение PromQL:
era_disk_wear > 90
Шаблон сообщения:
Критический износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraDiskNotAvailable#
Диск ERA RAID недоступен.
Период: 4h
(4 часа).
Важность: critical.
Категория: storage
.
Выражение PromQL:
era_disk_state == 0
Шаблон сообщения:
Диск {{ $labels.device_name }} RAID'а {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraHighDiskWear#
Существенный износ диска.
Период: 24h
(24 часа).
Важность: warning.
Категория: storage
.
Выражение PromQL:
era_disk_wear > 75
Шаблон сообщения:
Существенный износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraInitialNeeds#
ERA RAID нуждается в инициализации.
Период: 30m
(30 минут).
Важность: warning.
Категория: storage
.
Выражение PromQL:
era_raid_state_initialization == 2
Шаблон сообщения:
RAID {{ $labels.raid_name }} нуждается в инициализации, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraLicenseExpire#
Месяц до истечения лицензии ERA.
Период: 0s
(без ожидания).
Важность: warning.
Категория: storage.
Выражение PromQL:
((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7)
Шаблон сообщения:
До истечения срока действия лицензии с ключом {{ $labels.license_key }} остался месяц, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraLicenseExpireSoon#
Неделя до истечения лицензии ERA.
Период: 0s
(без ожидания).
Важность: critical.
Категория: storage
.
Выражение PromQL:
((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1
Шаблон сообщения:
До истечения срока действия лицензии с ключом {{ $labels.license_key }} осталась неделя, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraLicenseNotActive#
Лицензия неактивна.
Период: 0s
(без ожидания).
Важность: critical.
Категория: storage..
Выражение PromQL:
era_license_status != 1
Шаблон сообщения:
Лицензия с ключом {{ $labels.license_key }} неактивна, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraNotAvailable#
ERA RAID недоступен (МБД.П)
Период: 30m
(30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_raid_state_availability == 0
Шаблон сообщения:
RAID {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraReconstructNeeds#
ERA RAID нуждается в реконструкции (МБД.П)
Период: 4h
(4 часа).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_raid_state_initialization == 7
Шаблон сообщения:
RAID {{ $labels.raid_name }} нуждается в реконструкции, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
PostgresCriticalActiveSessionsCount#
Количество активных сессий достигло 500 (МБД.П)
Период: 30s
(30 секунд).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
pg_stat_activity_count > 500
Шаблон сообщения:
Количество активных сессий достигло 500 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresCriticalDatabaseTemp#
Используется более 100 GB TEMP (МБД.П)
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
pg_stat_database_temp_bytes > 100
Шаблон сообщения:
Используется более 100 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresCriticalReplicationLag#
Лаг репликации достиг значения 100.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
pg_replication_lag > 100
Шаблон сообщения:
Лаг репликации достиг значения 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresHighActiveSessionsCount#
Количество активных сессий достигло 100.
Период: 30s
(30 секунд).
Важность: warning.
Категория: func_service
..
Выражение PromQL:
pg_stat_activity_count > 100 and pg_stat_activity_count < 500
Шаблон сообщения:
Количество активных сессий достигло 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresHighDatabaseTemp#
Используется более 50 ГБ TEMP.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100
Шаблон сообщения:
Используется более 50 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresHighReplicationLag#
Лаг репликации достиг значения 50.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
pg_replication_lag > 50 and pg_replication_lag < 100
Шаблон сообщения:
Лаг репликации достиг значения 50 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
RaidixDcPassive#
DC Raid находится в состоянии Passive.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
raidix_raid_dc_status != 0
Шаблон сообщения:
DC у Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии Passive
RaidixDriveIsDirty#
Имеются метаданные другого Raid на диске.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
raidix_drive_dirty > 0
Шаблон сообщения:
На диске {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеются метаданные с кодом {{ $labels.dirty_code }}
RaidixNetworkVipDown#
VIP Raidix находится в выключенном состоянии
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
raidix_network_vip_up != 1
Шаблон сообщения:
VIP Raidix {{ $labels.vip_address }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в выключенном состоянии
RaidixRaidDegraded#
Raid находится в состоянии degraded
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
raidix_raid_degraded > 0
Шаблон сообщения:
Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии degraded, значение {{ $value }}
RaidixRaidDown#
Raid находится в состоянии, отличном от Online
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
raidix_raid_status != 1
Шаблон сообщения:
Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от Online
RaidixRaidShareBadStatus#
Raid имеет проблемы с общими ресурсами
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
raidix_raid_share_status != 1
Шаблон сообщения:
Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеет проблемы с общими ресурсами
SpectrumCriticalAutovacuumProcCount#
Активных процессов автовакуума больше 6 .
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
spectrum_autovacuum_proc_count > 6
Шаблон сообщения:
Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 6 (PG)
SpectrumHighAutovacuumProcCount#
Активных процессов автовакуума больше 3 (МБД.П)
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6
Шаблон сообщения:
Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 3