Данные правила применимы для ПАК МВ.ДИ.
BVSStatusCritical#
Узел BVS МВ.ДИ находится в статусе, отличном от Online.
Период: 0m (без ожидания).
Важность: critical.
Категория: server.
Выражение PromQL:
dynamix_bvs_node_status!=1
Шаблон сообщения:
Узел BVS {{ $labels._node_id }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}
DynamixNodeStatusWarning#
Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
dynamix_node_status != 1 and dynamix_node_status != 0
Шаблон сообщения:
Узел Dynamix {{ $labels.node_name }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}
DynamixVMTechStatusCritical#
Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN.
Период: 0m (без ожидания).
Важность: critical.
Категория: func_service.
Выражение PromQL:
dynamix_vm_tech_status == 7
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе DOWN
DynamixVMTechStatusWarning#
Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе {{ $value }}
DynamixVMWorkingStatusWarning#
Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
dynamix_vm_status != 1 and dynamix_vm_status != 0
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}
KubernetesComponentStatusNotTrue#
Компонент K8S находится в статусе, отличном от True.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_component_status!=1
Шаблон сообщения:
Компонент {{ $labels.name }} ПАК {{ $labels._pak_id }} Находится в статусе {{ $value }}
KubernetesNodeStatusNotReady#
Узел K8S находится в статусе, отличном от Ready.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_node_status{condition!="Ready"}==1
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}
KubernetesPodStatusFailed#
Под K8S находится в статусе Failed.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_pod_status==0
Шаблон сообщения:
Под {{ $labels.name }} ПАК {{ $labels._pak_id }} Находится в статусе Failed
KubernetesPodStatusNotRunning#
Под K8S находится в статусе, отличном от Running.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
k8s_pod_status != 0 and k8s_pod_status != 1
Шаблон сообщения:
Под {{ $labels.name }} ПАК {{ $labels._pak_id }} Находится в статусе {{ $value }}
LibvirtDomainMemoryCritical#
Процент использования памяти доменом Libvirt достиг 90%.
Период: 5m (5 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
libvirt_domain_memory_stats_used_percent > 90
Шаблон сообщения:
У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}
LibvirtDomainMemoryWarning#
Процент использования памяти доменом Libvirt достиг 80%.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90
Шаблон сообщения:
У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}
LogFileNotUpdatedCritical#
Лог не обновляется (критично).
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
(time() - log_file_mtime_seconds) > 3600
Шаблон сообщения:
Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не обновлялся 60 минут
LogFileNotUpdatedWarning#
Лог не обновляется (предупреждение).
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
(time() - log_file_mtime_seconds) > 600
Шаблон сообщения:
Лог {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не обновлялся 10 минут
LogFileSizeIsHuge#
Лог-файл достиг критических размеров.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
log_file_size_bytes > 2147483648
Шаблон сообщения:
Лог файл {{ $labels.log_filename}} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} достиг критических размеров
StorageProcessorFailure#
Ошибка процессора СХД Tatlin.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0
Шаблон сообщения:
Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinCPUUtilizationCritical#
Загрузка процессора СХД Tatlin достигла 95%.
Период: 2m (2 минуты).
Важность: critical.
Категория: storage.
Выражение PromQL:
100 - tatlinPerfCpuIdle >= 95
Шаблон сообщения:
Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%
TatlinCPUUtilizationWarning#
Загрузка процессора СХД Tatlin достигла 90%.
Период: 5m (5 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)
Шаблон сообщения:
Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%
TatlinDiskBayFailure#
Дисковая полка Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinHwDiskbayStateCode != 1
Шаблон сообщения:
Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskBayLost#
Потеряна связь с дисковой полкой СХД Tatlin.
Период: 0s (без ожидания).
Важность: critical.
Категория: storage.
Выражение PromQL:
lag(tatlinHwDiskbaySn{}[2h]) > 15m
Шаблон сообщения:
Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusError#
Диск СХД Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinHwDiskStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusInfo#
Диск СХД Tatlin находится в статусе Info.
Период: 5m (5 минут).
Важность: info.
Категория: storage.
Выражение PromQL:
tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusWarning#
Диск СХД Tatlin находится в статусе Warning.
Период: 5m (5 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
tatlinHwDiskStateCode == 3
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDriveCapacityFailure#
Ошибка объёма накопителя СХД Tatlin.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigDriveFailed > 0
Шаблон сообщения:
{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDriveFailed#
Имеются ошибки накопителя СХД Tatlin.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigDriveFailedCount > 0
Шаблон сообщения:
Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortError#
Порт Ethernet СХД Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категории:
network;storage.
Выражение PromQL:
tatlinHwEthStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortInfo#
Порт Ethernet СХД Tatlin находится в статусе Info.
Период: 5m (5 минут).
Важность: info.
Категории:
network;storage.
Выражение PromQL:
tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3
Шаблон сообщения:
Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortWarning#
Порт Ethernet СХД Tatlin находится в статусе Warning.
Период: 5m (5 минут).
Важность: warning.
Категории:
network;storage.
Выражение PromQL:
tatlinHwEthStateCode == 3
Шаблон сообщения:
Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortError#
Порт Fibre Channel СХД Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категории:
network;storage.
Выражение PromQL:
tatlinHwFcStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortInfo#
Порт Fibre Channel СХД Tatlin находится в статусе Info.
Период: 5m (5 минут).
Важность: info.
Категории:
network;storage.
Выражение PromQL:
tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3
Шаблон сообщения:
Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortWarning#
Порт Fibre Channel СХД Tatlin находится в статусе Warning.
Период: 5m (5 минут).
Важность: warning.
Категории:
network;storage.
Выражение PromQL:
tatlinHwFcStateCode == 3
Шаблон сообщения:
Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinNoResponse#
СХД Tatlin не отвечает по SNMP.
Период: 0s (без ожидания).
Важность: critical.
Категория: storage.
Выражение PromQL:
lag(tatlinVersion{}[2h]) > 15m
Шаблон сообщения:
СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }}
TatlinPoolFreeSpaceRunningOutCritical#
Свободное место СХД Tatlin почти закончилось.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold
Шаблон сообщения:
{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinPoolFreeSpaceRunningOutWarning#
Заканчивается свободное место СХД Tatlin.
Период: 30m (30 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold
Шаблон сообщения:
{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinPoolOversubscription#
Пул СХД Tatlin находится в состоянии избыточного выделения ресурсов.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, 'tatlinConfigPoolName', 'tatlinConfigResPool')) > 100
Шаблон сообщения:
У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinReplicationManagementNetworkCritical#
Сеть управления репликациями СХД Tatlin находится в статусе Failure.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigReplicationStorageMgmtNetwork == 4
Шаблон сообщения:
Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinReplicationNetworkCritical#
Сеть репликаций СХД Tatlin находится в статусе Failure.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigReplicationStorageReplicationNetwork != 1
Шаблон сообщения:
Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinResourceFreeSpaceRunningOutCritical#
Свободное место ресурса СХД Tatlin почти закончилось.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))
Шаблон сообщения:
{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})