Правила оповещения МВ.ДИ

Данные правила применимы для ПАК МВ.ДИ.

BVSStatusCritical#

Узел BVS МВ.ДИ находится в статусе, отличном от Online.

Период: 0m (без ожидания).

Важность: critical.

Категория: server.

Выражение PromQL:

dynamix_bvs_node_status!=1

Шаблон сообщения:

Узел BVS {{ $labels._node_id }} ПАКа {{ $labels._pak_id }} находится в статусе {{ $value }}

DynamixNodeStatusWarning#

Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_node_status != 1 and dynamix_node_status != 0

Шаблон сообщения:

Узел Dynamix {{ $labels.node_name }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}

DynamixVMTechStatusCritical#

Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

dynamix_vm_tech_status == 7

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе DOWN

DynamixVMTechStatusWarning#

Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в техническом статусе {{ $value }}

DynamixVMWorkingStatusWarning#

Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_vm_status != 1 and dynamix_vm_status != 0

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАКа {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}

KubernetesComponentStatusNotTrue#

Компонент K8S находится в статусе, отличном от True.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_component_status!=1

Шаблон сообщения:

Компонент {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }}

KubernetesNodeStatusNotReady#

Узел K8S находится в статусе, отличном от Ready.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_node_status{condition!="Ready"}==1

Шаблон сообщения:

Узел {{ $labels.name }} ПАКа {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}

KubernetesPodStatusFailed#

Под K8S находится в статусе Failed.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_pod_status==0

Шаблон сообщения:

Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе Failed

KubernetesPodStatusNotRunning#

Под K8S находится в статусе, отличном от Running.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

k8s_pod_status != 0 and k8s_pod_status != 1

Шаблон сообщения:

Под {{ $labels.name }} ПАКа {{ $labels._pak_id }} Находится в статусе {{ $value }}

LibvirtDomainCPUUsageCritical#

CPU виртуальной машины загружен на более чем 90%.

Период: 30m (30 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 90

Шаблон сообщения:

ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}

LibvirtDomainCPUUsageWarning#

CPU виртуальной машины загружен на более чем 70%.

Период: 30m (30 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 70 and avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 < 90

Шаблон сообщения:

ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}

LibvirtDomainIsShutOff#

Виртуальная машина выключена.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_info_vstate == 5

Шаблон сообщения:

Виртуальная машина {{ $labels.domain }} ПАКа {{ $labels._pak_id }} выключена

LibvirtDomainMemoryCritical#

Процент использования памяти доменом Libvirt достиг 90%.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_used_percent > 90

Шаблон сообщения:

У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}

LibvirtDomainMemoryWarning#

Процент использования памяти доменом Libvirt достиг 80% (МВ.ДИ)

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90

Шаблон сообщения:

У домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}

LibvirtDomainRAMCritical#

Свободно менее 1% RAM на виртуальной машине

Период: 30m (30 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 1

Шаблон сообщения:

Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}

LibvirtDomainRAMWarning#

Свободно менее 20% RAM на виртуальной машине

Период: 30m (30 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 20 and libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 > 1

Шаблон сообщения:

Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}

LibvirtDomainRXBytesIncrease#

Рост входящего сетевого трафика на виртуальной машине

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_receive_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост входящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LibvirtDomainRXPacketsDrop#

Имеются ошибки при получении пакетов на ВМ

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_receive_drops_total[30s])) by (domain, _pak_id) > 0

Шаблон сообщения:

При получении потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }}

LibvirtDomainReadBytesIncrease#

Рост чтения данных на виртуальной машине, в байтах

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_block_stats_read_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост чтения данных на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LibvirtDomainTXBytesIncrease#

Рост исходящего сетевого трафика на виртуальной машине

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_transmit_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост исходящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LibvirtDomainTXPacketsDrop#

Имеются ошибки при передаче пакетов на ВМ

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_receive_transmit_total[30s])) by (domain, _pak_id) > 0

Шаблон сообщения:

При передаче потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАКа {{ $labels._pak_id }}

LibvirtDomainWriteBytesIncrease#

Рост записи данных на виртуальной машине, в байтах

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_block_stats_write_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост записи данных на виртуальной машине {{ $labels.domain }} ПАКа {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LogFileNotUpdatedCritical#

Лог не обновляется (критично).

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(time() - log_file_mtime_seconds) > 3600

Шаблон сообщения:

Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК  {{ $labels._pak_id}} не обновлялся 60 минут

LogFileNotUpdatedWarning#

Лог не обновляется (предупреждение)

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(time() - log_file_mtime_seconds) > 600

Шаблон сообщения:

Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК  {{ $labels._pak_id}} не обновлялся 10 минут

LogFileSizeIsHuge#

Лог файл достиг критических размеров

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

log_file_size_bytes > 2147483648

Шаблон сообщения:

Лог файл {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК  {{ $labels._pak_id}} достиг критических размеров

PatroniClusterLocked#

Кластер Patroni заблокирован

Период: `3m (

Важность: critical.

Категория: func_service.

Выражение PromQL:

patroni_cluster_unlocked == 0

Шаблон сообщения:

Кластер {{ $labels.scope }} заблокирован. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniDCSConnectionLost#

Потеря связи узла Patroni с DCS

Период: `1m (

Важность: warning.

Категория: func_service.

Выражение PromQL:

time() - patroni_dcs_last_seen > 300

Шаблон сообщения:

Потеря связи с DCS на узле {{ $labels.name}} ПАК {{$labels._pak_id}}

PatroniFailsafeModeActive#

Активирован failsafe режим на узле Patroni

Период: `1m (

Важность: critical.

Категория: func_service.

Выражение PromQL:

patroni_failsafe_mode_is_active == 1

Шаблон сообщения:

Узел {{ $labels.name}} ПАК {{$labels._pak_id}} перешёл в режим failsafe

PatroniFrequentRestarts#

Слишком частые перезагрузки узла Patroni

Период: `0m (

Важность: warning.

Категория: func_service.

Выражение PromQL:

increase(patroni_postmaster_start_time[1h]) > 2

Шаблон сообщения:

Более 2 перезагрузок узла {{ $labels.name }} ПАК {{ $labels._pak_id }} за час

PatroniFrequentRoleChanges#

Частые смены роли узла Primary/Replica (Patroni)

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

( changes(patroni_primary[1h]) > 3 or changes(patroni_replica[1h]) > 3 ) and (patroni_primary == 1 or patroni_replica == 1)

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} сменил роль более 3 раз за последний час

PatroniHighReplicationLag#

Высокая задержка репликации узла Patroni

Период: `30s (

Важность: warning.

Категория: func_service.

Выражение PromQL:

(patroni_xlog_location - patroni_xlog_replayed_location) > 5368709120

Шаблон сообщения:

Задержка репликации превышает 5GB. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniMasterSwitch#

Смена Primary-роли узла Patroni

Период: `1m (

Важность: warning.

Категория: func_service.

Выражение PromQL:

changes(patroni_primary[15m]) > 0 and patroni_primary == 1

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} стал новым мастером в кластере {{ $labels.scope }}

PatroniNoPrimary#

Отсутствие узла в роли Primary в кластере Patroni

Период: `1m (

Важность: critical.

Категория: func_service.

Выражение PromQL:

sum(patroni_primary) by (scope, _pak_id)== 0

Шаблон сообщения:

Отсутствие узла в роли Primary в кластере Patroni {{ $labels.scope }}. ПАК {{$labels._pak_id}}

PatroniNodeNeedsRestart#

Требуется перезагрузка узла Patroni

Период: `1h (

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_pending_restart == 1

Шаблон сообщения:

Требуется перезагрузка узла {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniPostgresNotRunning#

Сервис PostgreSQL не запущен (Patroni)

Период: `1m (

Важность: critical.

Категория: func_service.

Выражение PromQL:

patroni_postgres_running == 0

Шаблон сообщения:

PostgreSQL не запущен. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniReplicaNotStreaming#

Узел с ролью реплики не в streaming режиме

Период: `1m (

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_replica == 1 and patroni_postgres_streaming == 0

Шаблон сообщения:

Реплика не в streaming режиме на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniScrapingDown#

Скрэпер метрик Patroni не работает

Период: 2m (2 минуты).

Важность: critical.

Категория: func_service.

Выражение PromQL:

up{job="patroni"} == 0 or absent(up{job="patroni"})

Шаблон сообщения:

Метрики Patroni не собираются более 2 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

PatroniTemporalReplicaLag#

Большая временная задержка репликации узле Patroni

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

time() - patroni_xlog_replayed_timestamp > 300

Шаблон сообщения:

Данные репликации отстают более чем на 5 минут. Узел {{ $labels.name}} ПАК {{$labels._pak_id}}

PatroniUnexpectedArchiveRecovery#

Восстановление PostgreSQL из архива на узле Patroni

Период: `15m (

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_postgres_in_archive_recovery == 1

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в режиме восстановления из архива

PatroniXLogPaused#

Приостановлено ведение журналов транзакций PostgreSQL (Patroni)

Период: `10m (

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_xlog_paused == 1

Шаблон сообщения:

Приостановлено ведение журналов транзакций журналов на узле {{ $labels.name}} ПАК {{$labels._pak_id}}

StorageProcessorFailure#

Ошибка процессора СХД Tatlin.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0

Шаблон сообщения:

Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinAllISCSISessionsFailed#

Все iSCSI-сессии неактивны

Период: `3m (

Важность: critical.

Категория: storage.

Выражение PromQL:

min(iscsi_session_info) by (target_iqn, _pak_id, _node_id) == 0

Шаблон сообщения:

Все iSCSI-сессии {{ $labels.target_iqn }} в состоянии "logged out" более 3 минут. ПАК {{ $labels._pak_id }}

TatlinCPUUtilizationCritical#

Загрузка процессора СХД Tatlin достигла 95%.

Период: 2m (2 минуты).

Важность: critical.

Категория: storage.

Выражение PromQL:

100 - tatlinPerfCpuIdle >= 95

Шаблон сообщения:

Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%

TatlinCPUUtilizationWarning#

Загрузка процессора СХД Tatlin достигла 90%.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)

Шаблон сообщения:

Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%

TatlinDiskBayFailure#

Дисковая полка Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwDiskbayStateCode != 1

Шаблон сообщения:

Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskBayLost#

Потеряна связь с дисковой полкой СХД Tatlin.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

lag(tatlinHwDiskbaySn{}[2h]) > 15m

Шаблон сообщения:

Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusError#

Диск СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusInfo#

Диск СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusWarning#

Диск СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode == 3

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDriveCapacityFailure#

Ошибка объёма накопителя СХД Tatlin.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigDriveFailed > 0

Шаблон сообщения:

{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDriveFailed#

Имеются ошибки накопителя СХД Tatlin.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigDriveFailedCount > 0

Шаблон сообщения:

Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortError#

Порт Ethernet СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwEthStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortInfo#

Порт Ethernet СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3

Шаблон сообщения:

Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortWarning#

Порт Ethernet СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwEthStateCode == 3

Шаблон сообщения:

Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortError#

Порт Fibre Channel СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwFcStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortInfo#

Порт Fibre Channel СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3

Шаблон сообщения:

Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortWarning#

Порт Fibre Channel СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwFcStateCode == 3

Шаблон сообщения:

Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinMultipathFailed#

Сбой Multipath

Период: `3m (

Важность: critical.

Категория: storage.

Выражение PromQL:

multipath_status == 0

Шаблон сообщения:

Multipath для {{ $labels.name }} - {{ $labels.wwid }} находится в состоянии 'failed'. ПАК {{ $labels._pak_id }}

TatlinNoActiveiSCSIPaths#

Пути iSCSI не обнаружены

Период: 2m (2 минуты).

Важность: critical.

Категория: storage.

Выражение PromQL:

iscsi_path_count == 0

Шаблон сообщения:

Не обнаружено ни одного iSCSI-пути {{ $labels.target_iqn }} более 2 минут. ПАК {{ $labels._pak_id }}

TatlinNoResponse#

СХД Tatlin не отвечает по SNMP.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

lag(tatlinVersion{}[2h]) > 15m

Шаблон сообщения:

СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }}

TatlinPoolFreeSpaceRunningOutCritical#

Свободное место СХД Tatlin почти закончилось.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold

Шаблон сообщения:

{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinPoolFreeSpaceRunningOutWarning#

Заканчивается свободное место СХД Tatlin.

Период: 30m (30 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold

Шаблон сообщения:

{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinPoolOversubscription#

Пул СХД Tatlin находится в состоянии избыточного выделения ресурсов.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, 'tatlinConfigPoolName', 'tatlinConfigResPool')) > 100

Шаблон сообщения:

У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinReplicationManagementNetworkCritical#

Сеть управления репликациями СХД Tatlin находится в статусе Failure.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigReplicationStorageMgmtNetwork == 4

Шаблон сообщения:

Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinReplicationNetworkCritical#

Сеть репликаций СХД Tatlin находится в статусе Failure.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigReplicationStorageReplicationNetwork != 1

Шаблон сообщения:

Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinResourceFreeSpaceRunningOutCritical#

Свободное место ресурса СХД Tatlin почти закончилось.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))

Шаблон сообщения:

{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinVGLockFailed#

Отсутствие блокировки тома.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

count(up{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0 unless count(vg_lock_status{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0

Шаблон сообщения:

Отсутствие блокировки тома, lvmlock отсутсвует. ПАК {{ $labels._pak_id }} узел {{ $labels._node_id }}