Правила оповещения МВ.ДИ

Данные правила применимы для ПАК МВ.ДИ.

BVSStatusCritical#

Узел BVS МВ.ДИ находится в статусе, отличном от Online.

Период: 0m (без ожидания).

Важность: critical.

Категория: server.

Выражение PromQL:

dynamix_bvs_node_status!=1

Шаблон сообщения:

Узел BVS {{ $labels._node_id }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}

DynamixNodeStatusWarning#

Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_node_status != 1 and dynamix_node_status != 0

Шаблон сообщения:

Узел Dynamix {{ $labels.node_name }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}

DynamixVMTechStatusCritical#

Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

dynamix_vm_tech_status == 7

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе DOWN

DynamixVMTechStatusWarning#

Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе {{ $value }}

DynamixVMWorkingStatusWarning#

Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_vm_status != 1 and dynamix_vm_status != 0

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}

KubernetesComponentStatusNotTrue#

Компонент K8S находится в статусе, отличном от True.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_component_status!=1

Шаблон сообщения:

Компонент {{ $labels.name }} ПАК {{ $labels._pak_id }} Находится в статусе {{ $value }}

KubernetesNodeStatusNotReady#

Узел K8S находится в статусе, отличном от Ready.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_node_status{condition!="Ready"}==1

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}

KubernetesPodStatusFailed#

Под K8S находится в статусе Failed.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_pod_status==0

Шаблон сообщения:

Под {{ $labels.name }} ПАК {{ $labels._pak_id }} Находится в статусе Failed

KubernetesPodStatusNotRunning#

Под K8S находится в статусе, отличном от Running.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

k8s_pod_status != 0 and k8s_pod_status != 1

Шаблон сообщения:

Под {{ $labels.name }} ПАК {{ $labels._pak_id }} Находится в статусе {{ $value }}

LibvirtDomainMemoryCritical#

Процент использования памяти доменом Libvirt достиг 90%.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_used_percent > 90

Шаблон сообщения:

У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}

LibvirtDomainMemoryWarning#

Процент использования памяти доменом Libvirt достиг 80%.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90

Шаблон сообщения:

У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}

LogFileNotUpdatedCritical#

Лог не обновляется (критично).

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(time() - log_file_mtime_seconds) > 3600

Шаблон сообщения:

Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК  {{ $labels._pak_id}} не обновлялся 60 минут

LogFileNotUpdatedWarning#

Лог не обновляется (предупреждение).

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(time() - log_file_mtime_seconds) > 600

Шаблон сообщения:

Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК  {{ $labels._pak_id}} не обновлялся 10 минут

LogFileSizeIsHuge#

Лог-файл достиг критических размеров.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

log_file_size_bytes > 2147483648

Шаблон сообщения:

Лог файл {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК  {{ $labels._pak_id}} достиг критических размеров

StorageProcessorFailure#

Ошибка процессора СХД Tatlin.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0

Шаблон сообщения:

Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinCPUUtilizationCritical#

Загрузка процессора СХД Tatlin достигла 95%.

Период: 2m (2 минуты).

Важность: critical.

Категория: storage.

Выражение PromQL:

100 - tatlinPerfCpuIdle >= 95

Шаблон сообщения:

Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%

TatlinCPUUtilizationWarning#

Загрузка процессора СХД Tatlin достигла 90%.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)

Шаблон сообщения:

Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%

TatlinDiskBayFailure#

Дисковая полка Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwDiskbayStateCode != 1

Шаблон сообщения:

Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskBayLost#

Потеряна связь с дисковой полкой СХД Tatlin.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

lag(tatlinHwDiskbaySn{}[2h]) > 15m

Шаблон сообщения:

Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusError#

Диск СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusInfo#

Диск СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusWarning#

Диск СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode == 3

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDriveCapacityFailure#

Ошибка объёма накопителя СХД Tatlin.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigDriveFailed > 0

Шаблон сообщения:

{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDriveFailed#

Имеются ошибки накопителя СХД Tatlin.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigDriveFailedCount > 0

Шаблон сообщения:

Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortError#

Порт Ethernet СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwEthStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortInfo#

Порт Ethernet СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3

Шаблон сообщения:

Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortWarning#

Порт Ethernet СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwEthStateCode == 3

Шаблон сообщения:

Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortError#

Порт Fibre Channel СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwFcStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortInfo#

Порт Fibre Channel СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3

Шаблон сообщения:

Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortWarning#

Порт Fibre Channel СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;
  • storage.

Выражение PromQL:

tatlinHwFcStateCode == 3

Шаблон сообщения:

Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinNoResponse#

СХД Tatlin не отвечает по SNMP.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

lag(tatlinVersion{}[2h]) > 15m

Шаблон сообщения:

СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }}

TatlinPoolFreeSpaceRunningOutCritical#

Свободное место СХД Tatlin почти закончилось.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold

Шаблон сообщения:

{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinPoolFreeSpaceRunningOutWarning#

Заканчивается свободное место СХД Tatlin.

Период: 30m (30 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold

Шаблон сообщения:

{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinPoolOversubscription#

Пул СХД Tatlin находится в состоянии избыточного выделения ресурсов.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, 'tatlinConfigPoolName', 'tatlinConfigResPool')) > 100

Шаблон сообщения:

У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinReplicationManagementNetworkCritical#

Сеть управления репликациями СХД Tatlin находится в статусе Failure.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigReplicationStorageMgmtNetwork == 4

Шаблон сообщения:

Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinReplicationNetworkCritical#

Сеть репликаций СХД Tatlin находится в статусе Failure.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigReplicationStorageReplicationNetwork != 1

Шаблон сообщения:

Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinResourceFreeSpaceRunningOutCritical#

Свободное место ресурса СХД Tatlin почти закончилось.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))

Шаблон сообщения:

{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})