Правила оповещения МХД.О

Данные правила применимы для ПАК МХД.О.

ActiveServicesReduced_ACC#

Уменьшилось количество активных ACC сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`s3cluster_volume_service_configured_count{svc_type="ACC"} - s3cluster_volume_service_count{svc_type="ACC"} > 0`

Шаблон сообщения:

Количество активных сервисов ACC уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ActiveServicesReduced_GW#

Уменьшилось количество активных GW сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`s3cluster_volume_service_configured_count{svc_type="GW"} - s3cluster_volume_service_count{svc_type="GW"} > 0`

Шаблон сообщения:

Количество активных сервисов GW уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ActiveServicesReduced_NS#

Уменьшилось количество активных NS сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`s3cluster_volume_service_configured_count{svc_type="NS"} - s3cluster_volume_service_count{svc_type="NS"} > 0`

Шаблон сообщения:

Количество активных сервисов NS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ActiveServicesReduced_OS#

Уменьшилось количество активных OS сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`s3cluster_volume_service_configured_count{svc_type="OS"} - s3cluster_volume_service_count{svc_type="OS"} > 0`

Шаблон сообщения:

Количество активных сервисов OS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ClusterBlockedReplication#

Заблокированная или медленная репликация в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(mdsd_cluster_replication_stuck_chunks[5m]) > 0 or increase(mdsd_cluster_replication_touts_total[5m]) > 0

Шаблон сообщения:

Репликация чанков заблокирована или слишком медленная.

ClusterCriticallyHighChunks#

Критически большое количество чанков в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

mdsd_fs_chunk_maps_sum >= 15000000

Шаблон сообщения:

В кластере слишком много чанков, что замедляет работу службы метаданных.

ClusterCriticallyHighFiles#

Критически большое количество файлов в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

mdsd_fs_files_sum >= 10000000

Шаблон сообщения:

В кластере слишком много файлов, что замедляет работу службы метаданных.

ClusterFailedChunkServices#

Неисправные службы чанков в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(mdsd_cs_status_value{status="failed"}) + sum(mdsd_cs_status_value{status="failed rel"}) > 0

Шаблон сообщения:

Некоторые службы чанков завершились с ошибкой. Это может быть вызвано сбоем физического диска.

ClusterLowPhysicalSpace#

Нехватка физического пространства в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.2

Шаблон сообщения:

Осталось мало свободного физического пространства на уровне хранения {{ $labels.tier }}.

ClusterOfflineChunkServices#

Оффлайн службы чанков в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(mdsd_cs_status_value{status="offline"}) > 0

Шаблон сообщения:

Некоторые службы чанков находятся в оффлайн. Проверьте и перезапустите их.

ClusterOutOfPhysicalSpace#

Исчерпание физического пространства в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.1

Шаблон сообщения:

Недостаточно свободного физического пространства на уровне хранения {{ $labels.tier }}.

ClusterTooManyChunks#

Слишком много чанков в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

15000000 > mdsd_fs_chunk_maps_sum > 10000000

Шаблон сообщения:

В кластере слишком много чанков, что замедляет работу службы метаданных.

ClusterTooManyFiles#

Слишком много файлов в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

10000000 > mdsd_fs_files_sum > 4000000

Шаблон сообщения:

В кластере слишком много файлов, что замедляет работу службы метаданных.

ClusterUnavailableMetadataServices#

Недоступные службы метаданных в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="MDS"}) - sum(up{service="MDS"}) > 0

Шаблон сообщения:

Некоторые службы метаданных находятся в оффлайн или завершились с ошибкой. Проверьте и перезапустите их.

FSFailedStart#

Неудачный запуск файловой службы.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(ostor_svc_start_failed_count_total{service="FS"}[5m]) > 1

Шаблон сообщения:

Агент объектного хранилища не смог запустить файловую службу по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

HaproxyFrontendBytesInTotal#

Отсутствие входящего трафика haproxy в течении 5 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`sum(rate(haproxy_frontend_bytes_in_total[5m])*8) by (instance) == 0`

Шаблон сообщения:

Отсутствие входящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

HaproxyFrontendBytesOutTotal#

Отсутствие исходящего трафика haproxy в течении 5 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`sum(rate(haproxy_frontend_bytes_out_total[5m])*8) by (instance) == 0`

Шаблон сообщения:

Отсутствие исходящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceCapacityUtilizationAlarm#

Утилизация лицензий превысила 95%.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`(vstorage_space_free*100/vstorage_license_capacity >= 95) AND (vstorage_space_free*100/vstorage_license_capacity < 99)`

Шаблон сообщения:

Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceCapacityUtilizationCritical#

Утилизация лицензий превысила 99%.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

`vstorage_space_free*100/vstorage_license_capacity >= 99`

Шаблон сообщения:

Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceCapacityUtilizationWarning#

Утилизация лицензий превысила 85%.

Период: 1m (1 минута).

Важность: info.

Категория: func_service.

Выражение PromQL:

`(vstorage_space_free*100/vstorage_license_capacity >= 85) AND (vstorage_space_free*100/vstorage_license_capacity < 95)`

Шаблон сообщения:

Утилизация лицензий МХД.О превысила 85% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceExpirationAlarm#

До истечения лицензий МХД.О менее 14 дней.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`(vstorage_license_expiration_ts*1000 <= 14) AND (vstorage_license_expiration_ts*1000 > 7)`

Шаблон сообщения:

До истечения лицензий МХД.О менее 14 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceExpirationCritical#

До истечения лицензий МХД.О менее 7 дней.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

`vstorage_license_expiration_ts*1000 <= 7`

Шаблон сообщения:

До истечения лицензий МХД.О менее 7 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceExpirationWarning#

До истечения лицензий МХД.О менее 30 дней.

Период: 1m (1 минута).

Важность: info.

Категория: func_service.

Выражение PromQL:

`(vstorage_license_expiration_ts*1000 <= 30) AND (vstorage_license_expiration_ts*1000 > 14)`

Шаблон сообщения:

До истечения лицензий МХД.О менее 30 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

MHDoPostgresSizeH3GB#

Размер служебной БД PostgreSQL МХД.О превысил 3 Гб.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

mhdo_pg_bd_size > 3 * 1024 * 1024 * 1024

Шаблон сообщения:

База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более 3 Гб

MHDoPostgresSpaceCritical#

Служебная БД PostgreSQL МХД.О занимает более половины размера корневой директории.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

sum(pg_bd_size) by (database_name) / sum(node_filesystem_size_bytes{mountpoint="/"}) > 0.5

Шаблон сообщения:

База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более половины размера корневой директории

MHDoPostgresSyncError#

Между мастер-сервером и репликой базы данных PostgreSQL обнаружена рассинхронизация.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

mhdo_pg_bytes_behind != 0

Шаблон сообщения:

Реплика БД PostgreSQL {{ $labels.application_name}} ПАК {{$labels._pak_id}} отстаёт от мастера на {{ $value }} байт(а)

MasterMetadataServiceFrequentChanges#

Частая смена главной службы метаданных.

Период: `10m (10 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

topk(1, mdsd_is_master_top1) and (delta(mdsd_master_uptime[1h]) < 300000)

Шаблон сообщения:

Главная служба метаданных изменилась более одного раза за 5 минут.

MetadataServiceCriticallyHighLatency#

Критически высокая задержка коммитов службы метаданных.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) >= 5

Шаблон сообщения:

Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 5 секунд.

MetadataServiceHighCPU#

Высокая загрузка процессора службы метаданных.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(sum by (_node_id) (rate(process_cpu_seconds_total[5m])) * 100) > 80

Шаблон сообщения:

Служба метаданных на узле {{ $labels._node_id }} имеет загрузку процессора выше 80%. Служба может быть перегружена.

MetadataServiceHighCommitLatency#

Высокая задержка коммитов службы метаданных.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5 > histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) > 1

Шаблон сообщения:

Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 1 секунды.

NFSServiceUnavailableFSServices#

Недоступные файловые службы NFS.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="FS"}) by (instance) > sum(up{service="FS"}) by (instance)

Шаблон сообщения:

Некоторые файловые службы не работают на узле {{ $labels._node_id }}. Проверьте статус службы в командной строке.

NameServiceCriticallyHighCommitLatency#

Критически высокая задержка коммитов службы имён.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) >= 10000000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.

NameServiceCriticallyHighLatency#

Критически высокая задержка запросов службы имён.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.

NameServiceHighCommitLatency#

Высокая задержка коммитов службы имён.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) > 1000000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.

NameServiceHighLatency#

Высокая задержка запросов службы имён.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5000 > histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.

NetworkBondNotRedundant#

Сетевой бонд не избыточен.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

`node_bonding_slaves - node_bonding_active > 0`

Шаблон сообщения:

Сетевой бонд {{ $labels.master }} на узле {{ $labels._node_id }} не имеет {{ $labels.value }} подчиненных интерфейсов.

NodeFailedMapRequests#

Неудавшиеся запросы карты на узле.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

fused_maps_failed > 0 or rate(fused_map_failures_total[5m]) > 0

Шаблон сообщения:

Некоторые запросы карты на узле {{ $labels._node_id }} завершились неудачно.

NodeHighTransmitPacketError#

Высокая частота ошибок исходящих пакетов.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

node_network_transmit_errs_total_rate > 1000

Шаблон сообщения:

Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.

NodeStuckIORequests#

Застрявшие запросы ввода-вывода на узле.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

fused_stuck_reqs_30s > 0 or fused_stuck_reqs_10s > 0

Шаблон сообщения:

Некоторые запросы ввода-вывода застряли на узле {{ $labels._node_id }}.

ObjectServiceCriticallyHighCommitLatency#

Критически высокая задержка коммитов объектной службы.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) >= 10000000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.

ObjectServiceCriticallyHighLatency#

Критически высокая задержка запросов объектной службы.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.

ObjectServiceHighCommitLatency#

Высокая задержка коммитов объектной службы.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) > 1000000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.

ObjectServiceHighLatency#

Высокая задержка запросов объектной службы.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5000 > histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.

ObjectStorageAgentFrozen#

Замороженный агент объектного хранилища.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(pcs_process_inactive_seconds_total{service="OS"}[5m]) > 0

Шаблон сообщения:

Агент объектного хранилища по адресу {{ $labels.instance }} имеет неактивный цикл событий более 1 минуты.

ObjectStorageAgentNoConfigConnection#

Агент объектного хранилища не подключен к службе конфигурации.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(ostor_svc_registry_cfg_failed_total[5m]) > 1

Шаблон сообщения:

Агент объектного хранилища не смог подключиться к службе конфигурации по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

ObjectStorageAgentOffline#

Оффлайн агент объектного хранилища.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

up{service="OSTOR_REPLICATO"} == 0

Шаблон сообщения:

Агент объектного хранилища находится в оффлайн по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

S3ClusterUnavailableGeoReplicationServices#

Недоступные службы георепликации в кластере S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="GR"}) by (instance) > sum(up{service="GR"}) by (instance)

Шаблон сообщения:

Некоторые службы георепликации не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3ClusterUnavailableNameServices#

Недоступные службы имён в кластере S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="NS"}) by (instance) > sum(up{service="NS"}) by (instance)

Шаблон сообщения:

Некоторые службы имен не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3ClusterUnavailableObjectServices#

Недоступные объектные службы в кластере S3

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="OS"}) by (instance) > sum(up{service="OS"}) by (instance)

Шаблон сообщения:

Некоторые объектные службы не работают по адресу {{ $labels.instance }} ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3ClusterUnavailableS3GatewayServices#

Недоступные службы шлюза S3 в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="S3GW"}) by (instance) > sum(up{service="S3GW"}) by (instance)

Шаблон сообщения:

Некоторые службы шлюза S3 не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3GatewayCriticallyHighCPU#

Критически высокая загрузка процессора шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

(sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) >= 90

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 90%. Служба может быть перегружена.

S3GatewayCriticallyHighCancelRate#

Критически высокая частота отмены запросов шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 >= 30

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 30%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.

S3GatewayCriticallyHighGetLatency#

Критически высокая задержка GET-запросов шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (_pak_id, instance, le)) >= 5000

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 5 секунд.

S3GatewayHighCPU#

Высокая загрузка процессора шлюза S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

90 > (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) > 75

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 75%. Служба может быть перегружена.

S3GatewayHighCancelRate#

Высокая частота отмены запросов шлюза S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

30 > ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 > 5

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 5%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.

S3GatewayHighFailedRequests#

Большое количество неудачных запросов шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

((sum(ostor_req_server_err_rate) by (instance, _pak_id)) / (sum(ostor_s3gw_req_rate) by (instance, _pak_id))) * 100 > 5

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет много неудачных запросов с ошибкой сервера (код состояния 5XX).

S3GatewayHighGetLatency#

Высокая задержка GET-запросов шлюза S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5000 > histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 1 секунды.

S3ServiceFailedStart#

Неудачный запуск службы S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(ostor_svc_start_failed_count_total{service=~"OS | NS | S3GW"}[5m]) > 1

Шаблон сообщения:

Агент объектного хранилища не смог запустить {{ $labels.service }} по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

S3ServiceFrozen#

Замороженная служба S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(pcs_process_inactive_seconds_total{service=~"S3GW | OS | NS"}[5m]) > 0

Шаблон сообщения:

Служба S3 ({{ $labels.service }}, по адресу {{ $labels._pak_id }}) ПАК {{ $labels._pak_id }} имеет неактивный цикл событий более 1 минуты.

ServerControlHttpFailsCritical#

Ошибок 5хх более 1 процента в минуту.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

`s3gw_control_http_response{code=~"5.*"}*100/sum(s3gw_control_http_response) >= 1`

Шаблон сообщения:

Количество запросов на control {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту.

ServerProxyHttpFailsCritical#

Ошибок 5хх более 1 процента в минуту.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

`s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) >= 1`

Шаблон сообщения:

Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту.

ServerProxyHttpFailsInfo#

Ошибок 5хх менее 0.1 процента в минуту.

Период: 1m (1 минута).

Важность: info.

Категория: func_service.

Выражение PromQL:

`s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) < 0.1`

Шаблон сообщения:

Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх менее 0.1% от общего числа запросов в минуту.

ServerProxyHttpFailsWarning#

Ошибок 5хх от 0.1 до 1 процента в минуту.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

`(s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) > 0.1) AND (s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) < 1)`

Шаблон сообщения:

Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх в интервале от 0.1 до 1% от общего числа запросов в минуту.

SystemUnitChronydRestart#

Перезапуск сервиса chronyd.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="chronyd.service"} < systemd_service_uptime{service="chronyd.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitChronydStoped#

Остановка сервиса chronyd.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="chronyd.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitHaproxyRestart#

Перезапуск сервиса haproxy.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="haproxy.service"} < systemd_service_uptime{service="haproxy.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitHaproxyStoped#

Остановка сервиса haproxy.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="haproxy.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitKeepalivedRestart#

Перезапуск сервиса keepalived.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="keepalived.service"} < systemd_service_uptime{service="keepalived.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitKeepalivedStoped#

Остановка сервиса keepalived.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="keepalived.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitNginxRestart#

Перезапуск сервиса nginx.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="nginx.service"} < systemd_service_uptime{service="nginx.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitNginxStoped#

Остановка сервиса nginx.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="nginx.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorAgentdRestart#

Перезапуск сервиса ostor-agentd.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="ostor-agentd.service"} < systemd_service_uptime{service="ostor-agentd.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorAgentdStoped#

Остановка сервиса ostor-agentd.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="ostor-agentd.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorCfgdRestart#

Перезапуск сервиса ostor-cfgd.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="ostor-cfgd.service"} < systemd_service_uptime{service="ostor-cfgd.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorCfgdStoped#

Остановка сервиса ostor-cfgd.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="ostor-cfgd.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPacemakerRestart#

Перезапуск сервиса pacemaker.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="pacemaker.service"} < systemd_service_uptime{service="pacemaker.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPacemakerStoped#

Остановка сервиса pacemaker.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="pacemaker.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPostgresRestart#

Перезапуск сервиса postgres.server.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="postgres.server"} < systemd_service_uptime{service="postgres.server"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса postgres.server на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPostgresStoped#

Остановка сервиса postgres.server.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="postgres.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса postgres.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayCompressionServerRestart#

Перезапуск сервиса s3gateway-compression-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="s3gateway-compression-server.service"} < systemd_service_uptime{service="s3gateway-compression-server.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-compression.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayCompressionServerStoped#

Остановка сервиса s3gateway-compression-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="s3gateway-compression-server.service"} != 1`

Шаблон сообщения:

Произошла остановка сервиса s3gateway-compression-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayControlServerRestart#

Перезапуск сервиса s3gateway-control-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="s3gateway-control-server.service"} < systemd_service_uptime{service="s3gateway-control-server.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-control.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayControlServerStoped#

Остановка сервиса s3gateway-control-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="s3gateway-control-server.service"} != 1`

Шаблон сообщения:

Произошла остановка сервиса s3gateway-control-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayOstorServerRestart#

Перезапуск сервиса s3gateway-ostor-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="s3gateway-ostor-server.service"} < systemd_service_uptime{service="s3gateway-ostor-server.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-ostore.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayOstorServerStoped#

Остановка сервиса s3gateway-ostor-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="s3gateway-ostor-server.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса s3gateway-ostor-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayProxyServerRestart#

Перезапуск сервиса s3gateway-proxy-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service="s3gateway-proxy-server.service"} < systemd_service_uptime{service="s3gateway-proxy-server.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-proxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayProxyServerStoped#

Остановка сервиса s3gateway-proxy-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name="s3gateway-proxy-server.service"} != 1`

Шаблон сообщения:

Произошла остановка сервиса s3gateway-proxy-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageCsdRestart#

Перезапуск сервиса вида vstorage-csd.X.X.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса вида vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageCsdStoped#

Остановка сервиса вида vstorage-csd.X.X.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageMdsdStoped#

Остановка сервиса вида vstorage-mdsd.X.X.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageMsdRestart#

Перезапуск сервиса вида vstorage-mdsd.X.X.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса вида vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageShamanRestart#

Перезапуск сервиса вида vstorage-shaman@X.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

`(systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} < systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} offset 1m) == 1`

Шаблон сообщения:

Произошел перезапуск сервиса вида vstorage-shaman@X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageShamanStoped#

Остановка сервиса вида vstorage-shaman@.X.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

`systemd_unit_state{name=~"shaman@[a-zA-Z0-9]+\\.service"}!= 1`

Шаблон сообщения:

Произошла остановка сервиса vstorage-shaman@.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}