Данные правила применимы для ПАК МВ.ДИ.
BVSStatusCritical#
Узел BVS МВ.ДИ находится в статусе, отличном от Online.
Период: 0m
(без ожидания).
Важность: critical.
Категория: server
.
Выражение PromQL:
dynamix_bvs_node_status!=1
Шаблон сообщения:
Узел BVS {{ $labels._node_id }} ПАКа {{ $labels._pak_id }} находится в статусе {{ $value }}
DynamixNodeStatusWarning#
Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.
Период: 0m
(без ожидания).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
dynamix_node_status != 1 and dynamix_node_status != 0
Шаблон сообщения:
Узел Dynamix {{ $labels.node_name }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}
DynamixVMTechStatusCritical#
Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN.
Период: 0m
(без ожидания).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
dynamix_vm_tech_status == 7
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе DOWN
DynamixVMTechStatusWarning#
Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе.
Период: 0m
(без ожидания).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе {{ $value }}
DynamixVMWorkingStatusWarning#
Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.
Период: 0m
(без ожидания).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
dynamix_vm_status != 1 and dynamix_vm_status != 0
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}
KubernetesComponentStatusNotTrue#
Компонент K8S находится в статусе, отличном от True
.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
k8s_component_status!=1
Шаблон сообщения:
Компонент {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }}
KubernetesNodeStatusNotReady#
Узел K8S находится в статусе, отличном от Ready.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
k8s_node_status{condition!="Ready"}==1
Шаблон сообщения:
Узел {{ $labels.name }} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}
KubernetesPodStatusFailed#
Под K8S находится в статусе Failed.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
k8s_pod_status==0
Шаблон сообщения:
Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе Failed
KubernetesPodStatusNotRunning#
Под K8S находится в статусе, отличном от Running.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
k8s_pod_status != 0 and k8s_pod_status != 1
Шаблон сообщения:
Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }}
LibvirtDomainCPUUsageCritical#
CPU виртуальной машины загружен на более чем 90%.
Период: 30m
(30 минут).
Важность: critical.
Категория: server
.
Выражение PromQL:
avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 90
Шаблон сообщения:
ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}
LibvirtDomainCPUUsageWarning#
CPU виртуальной машины загружен на более чем 70%.
Период: 30m
(30 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 70 and avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 < 90
Шаблон сообщения:
ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}
LibvirtDomainIsShutOff#
Виртуальная машина выключена.
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
libvirt_domain_info_vstate == 5
Шаблон сообщения:
Виртуальная машина {{ $labels.domain }} ПАКа {{ $labels._pak_id }} выключена
LibvirtDomainMemoryCritical#
Процент использования памяти доменом Libvirt достиг 90%.
Период: 5m
(5 минут).
Важность: critical.
Категория: server
.
Выражение PromQL:
libvirt_domain_memory_stats_used_percent > 90
Шаблон сообщения:
У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}
LibvirtDomainMemoryWarning#
Процент использования памяти доменом Libvirt достиг 80% (МВ.ДИ)
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90
Шаблон сообщения:
У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}
LibvirtDomainRAMCritical#
Свободно менее 1% RAM на виртуальной машине
Период: 30m
(30 минут).
Важность: critical.
Категория: server
.
Выражение PromQL:
libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 1
Шаблон сообщения:
Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}
LibvirtDomainRAMWarning#
Свободно менее 20% RAM на виртуальной машине
Период: 30m
(30 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 20 and libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 > 1
Шаблон сообщения:
Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}
LibvirtDomainRXBytesIncrease#
Рост входящего сетевого трафика на виртуальной машине
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_receive_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост входящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LibvirtDomainRXPacketsDrop#
Имеются ошибки при получении пакетов на ВМ
Период: 5m
(5 минут).
Важность: critical.
Категория: server
.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_receive_drops_total[30s])) by (domain, _pak_id) > 0
Шаблон сообщения:
При получении потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }}
LibvirtDomainReadBytesIncrease#
Рост чтения данных на виртуальной машине, в байтах
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
sum(rate(libvirt_domain_block_stats_read_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост чтения данных на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LibvirtDomainTXBytesIncrease#
Рост исходящего сетевого трафика на виртуальной машине
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_transmit_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост исходящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LibvirtDomainTXPacketsDrop#
Имеются ошибки при передаче пакетов на ВМ
Период: 5m
(5 минут).
Важность: critical.
Категория: server
.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_receive_transmit_total[30s])) by (domain, _pak_id) > 0
Шаблон сообщения:
При передаче потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }}
LibvirtDomainWriteBytesIncrease#
Рост записи данных на виртуальной машине, в байтах
Период: 5m
(5 минут).
Важность: warning.
Категория: server
.
Выражение PromQL:
sum(rate(libvirt_domain_block_stats_write_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост записи данных на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LogFileNotUpdatedCritical#
Лог не обновляется (критично).
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
(time() - log_file_mtime_seconds) > 3600
Шаблон сообщения:
Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не обновлялся 60 минут
LogFileNotUpdatedWarning#
Лог не обновляется (предупреждение)
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
(time() - log_file_mtime_seconds) > 600
Шаблон сообщения:
Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не обновлялся 10 минут
LogFileSizeIsHuge#
Лог файл достиг критических размеров
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
log_file_size_bytes > 2147483648
Шаблон сообщения:
Лог файл {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} достиг критических размеров
PatroniClusterLocked#
Кластер Patroni заблокирован
Период: `3m (
Важность: critical.
Категория: func_service
.
Выражение PromQL:
patroni_cluster_unlocked == 0
Шаблон сообщения:
Кластер {{ $labels.scope }} заблокирован. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniDCSConnectionLost#
Потеря связи узла Patroni с DCS
Период: `1m (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
time() - patroni_dcs_last_seen > 300
Шаблон сообщения:
Потеря связи с DCS на узле {{ $labels.name}} ПАК {{$labels._pak_id}}
PatroniFailsafeModeActive#
Активирован failsafe режим на узле Patroni
Период: `1m (
Важность: critical.
Категория: func_service
.
Выражение PromQL:
patroni_failsafe_mode_is_active == 1
Шаблон сообщения:
Узел {{ $labels.name}} ПАК {{$labels._pak_id}} перешёл в режим failsafe
PatroniFrequentRestarts#
Слишком частые перезагрузки узла Patroni
Период: `0m (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
increase(patroni_postmaster_start_time[1h]) > 2
Шаблон сообщения:
Более 2 перезагрузок узла {{ $labels.name }} ПАК {{ $labels._pak_id }} за час
PatroniFrequentRoleChanges#
Частые смены роли узла Primary/Replica (Patroni)
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
( changes(patroni_primary[1h]) > 3 or changes(patroni_replica[1h]) > 3 ) and (patroni_primary == 1 or patroni_replica == 1)
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} сменил роль более 3 раз за последний час
PatroniHighReplicationLag#
Высокая задержка репликации узла Patroni
Период: `30s (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
(patroni_xlog_location - patroni_xlog_replayed_location) > 5368709120
Шаблон сообщения:
Задержка репликации превышает 5GB. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniMasterSwitch#
Смена Primary-роли узла Patroni
Период: `1m (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
changes(patroni_primary[15m]) > 0 and patroni_primary == 1
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} стал новым мастером в кластере {{ $labels.scope }}
PatroniNoPrimary#
Отсутствие узла в роли Primary в кластере Patroni
Период: `1m (
Важность: critical.
Категория: func_service
.
Выражение PromQL:
sum(patroni_primary) by (scope, _pak_id)== 0
Шаблон сообщения:
Отсутствие узла в роли Primary в кластере Patroni {{ $labels.scope }}. ПАК {{$labels._pak_id}}
PatroniNodeNeedsRestart#
Требуется перезагрузка узла Patroni
Период: `1h (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
patroni_pending_restart == 1
Шаблон сообщения:
Требуется перезагрузка узла {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniPostgresNotRunning#
Сервис PostgreSQL не запущен (Patroni)
Период: `1m (
Важность: critical.
Категория: func_service
.
Выражение PromQL:
patroni_postgres_running == 0
Шаблон сообщения:
PostgreSQL не запущен. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniReplicaNotStreaming#
Узел с ролью реплики не в streaming режиме
Период: `1m (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
patroni_replica == 1 and patroni_postgres_streaming == 0
Шаблон сообщения:
Реплика не в streaming режиме на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniScrapingDown#
Скрэпер метрик Patroni не работает
Период: 2m
(2 минуты).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
up{job="patroni"} == 0 or absent(up{job="patroni"})
Шаблон сообщения:
Метрики Patroni не собираются более 2 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
PatroniTemporalReplicaLag#
Большая временная задержка репликации узле Patroni
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
time() - patroni_xlog_replayed_timestamp > 300
Шаблон сообщения:
Данные репликации отстают более чем на 5 минут. Узел {{ $labels.name}} ПАК {{$labels._pak_id}}
PatroniUnexpectedArchiveRecovery#
Восстановление PostgreSQL из архива на узле Patroni
Период: `15m (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
patroni_postgres_in_archive_recovery == 1
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в режиме восстановления из архива
PatroniXLogPaused#
Приостановлено ведение журналов транзакций PostgreSQL (Patroni)
Период: `10m (
Важность: warning.
Категория: func_service
.
Выражение PromQL:
patroni_xlog_paused == 1
Шаблон сообщения:
Приостановлено ведение журналов транзакций журналов на узле {{ $labels.name}} ПАК {{$labels._pak_id}}
StorageProcessorFailure#
Ошибка процессора СХД Tatlin.
Период: 5m
(5 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0
Шаблон сообщения:
Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinAllISCSISessionsFailed#
Все iSCSI-сессии неактивны
Период: `3m (
Важность: critical.
Категория: storage
.
Выражение PromQL:
min(iscsi_session_info) by (target_iqn, _pak_id, _node_id) == 0
Шаблон сообщения:
Все iSCSI-сессии {{ $labels.target_iqn }} в состоянии "logged out" более 3 минут. ПАК {{ $labels._pak_id }}
TatlinCPUUtilizationCritical#
Загрузка процессора СХД Tatlin достигла 95%.
Период: 2m
(2 минуты).
Важность: critical.
Категория: storage
.
Выражение PromQL:
100 - tatlinPerfCpuIdle >= 95
Шаблон сообщения:
Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%
TatlinCPUUtilizationWarning#
Загрузка процессора СХД Tatlin достигла 90%.
Период: 5m
(5 минут).
Важность: warning.
Категория: storage
.
Выражение PromQL:
(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)
Шаблон сообщения:
Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%
TatlinDiskBayFailure#
Дисковая полка Tatlin находится в статусе Error.
Период: 5m
(5 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinHwDiskbayStateCode != 1
Шаблон сообщения:
Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskBayLost#
Потеряна связь с дисковой полкой СХД Tatlin.
Период: 0s
(без ожидания).
Важность: critical.
Категория: storage
.
Выражение PromQL:
lag(tatlinHwDiskbaySn{}[2h]) > 15m
Шаблон сообщения:
Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusError#
Диск СХД Tatlin находится в статусе Error.
Период: 5m
(5 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinHwDiskStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusInfo#
Диск СХД Tatlin находится в статусе Info.
Период: 5m
(5 минут).
Важность: info
Категория: storage
.
Выражение PromQL:
tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusWarning#
Диск СХД Tatlin находится в статусе Warning.
Период: 5m
(5 минут).
Важность: warning.
Категория: storage
.
Выражение PromQL:
tatlinHwDiskStateCode == 3
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDriveCapacityFailure#
Ошибка объёма накопителя СХД Tatlin.
Период: 30m
(30 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinConfigDriveFailed > 0
Шаблон сообщения:
{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDriveFailed#
Имеются ошибки накопителя СХД Tatlin.
Период: 30m
(30 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinConfigDriveFailedCount > 0
Шаблон сообщения:
Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortError#
Порт Ethernet СХД Tatlin находится в статусе Error.
Период: 5m
(5 минут).
Важность: critical.
Категории:
network
;storage
.
Выражение PromQL:
tatlinHwEthStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortInfo#
Порт Ethernet СХД Tatlin находится в статусе Info.
Период: 5m
(5 минут).
Важность: info
Категории:
network
;storage
.
Выражение PromQL:
tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3
Шаблон сообщения:
Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortWarning#
Порт Ethernet СХД Tatlin находится в статусе Warning.
Период: 5m
(5 минут).
Важность: warning.
Категории:
network
;storage
.
Выражение PromQL:
tatlinHwEthStateCode == 3
Шаблон сообщения:
Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortError#
Порт Fibre Channel СХД Tatlin находится в статусе Error.
Период: 5m
(5 минут).
Важность: critical.
Категории:
network
;storage
.
Выражение PromQL:
tatlinHwFcStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortInfo#
Порт Fibre Channel СХД Tatlin находится в статусе Info.
Период: 5m
(5 минут).
Важность: info
Категории:
network
;storage
.
Выражение PromQL:
tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3
Шаблон сообщения:
Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortWarning#
Порт Fibre Channel СХД Tatlin находится в статусе Warning.
Период: 5m
(5 минут).
Важность: warning.
Категории:
network
;storage
.
Выражение PromQL:
tatlinHwFcStateCode == 3
Шаблон сообщения:
Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinMultipathFailed#
Сбой Multipath
Период: `3m (
Важность: critical.
Категория: storage
.
Выражение PromQL:
multipath_status == 0
Шаблон сообщения:
Multipath для {{ $labels.name }} - {{ $labels.wwid }} находится в состоянии 'failed'. ПАК {{ $labels._pak_id }}
TatlinNoActiveiSCSIPaths#
Пути iSCSI не обнаружены
Период: 2m
(2 минуты).
Важность: critical.
Категория: storage
.
Выражение PromQL:
iscsi_path_count == 0
Шаблон сообщения:
Не обнаружено ни одного iSCSI-пути {{ $labels.target_iqn }} более 2 минут. ПАК {{ $labels._pak_id }}
TatlinNoResponse#
СХД Tatlin не отвечает по SNMP.
Период: 0s
(без ожидания).
Важность: critical.
Категория: storage
.
Выражение PromQL:
lag(tatlinVersion{}[2h]) > 15m
Шаблон сообщения:
СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }}
TatlinPoolFreeSpaceRunningOutCritical#
Свободное место СХД Tatlin почти закончилось.
Период: 30m
(30 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold
Шаблон сообщения:
{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinPoolFreeSpaceRunningOutWarning#
Заканчивается свободное место СХД Tatlin.
Период: 30m
(30 минут).
Важность: warning.
Категория: storage
.
Выражение PromQL:
tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold
Шаблон сообщения:
{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinPoolOversubscription#
Пул СХД Tatlin находится в состоянии избыточного выделения ресурсов.
Период: 30m
(30 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, 'tatlinConfigPoolName', 'tatlinConfigResPool')) > 100
Шаблон сообщения:
У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinReplicationManagementNetworkCritical#
Сеть управления репликациями СХД Tatlin находится в статусе Failure.
Период: 5m
(5 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinConfigReplicationStorageMgmtNetwork == 4
Шаблон сообщения:
Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinReplicationNetworkCritical#
Сеть репликаций СХД Tatlin находится в статусе Failure.
Период: 5m
(5 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
tatlinConfigReplicationStorageReplicationNetwork != 1
Шаблон сообщения:
Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinResourceFreeSpaceRunningOutCritical#
Свободное место ресурса СХД Tatlin почти закончилось.
Период: 30m
(30 минут).
Важность: critical.
Категория: storage
.
Выражение PromQL:
(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))
Шаблон сообщения:
{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinVGLockFailed#
Отсутствие блокировки тома.
Период: 5m
(5 минут).
Важность: warning.
Категория: storage
.
Выражение PromQL:
count(up{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0 unless count(vg_lock_status{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0
Шаблон сообщения:
Отсутствие блокировки тома, lvmlock отсутсвует. ПАК {{ $labels._pak_id }} узел {{ $labels._node_id }}