Данные правила применимы для ПАК МХД.О.
ActiveServicesReduced_ACC#
Уменьшилось количество активных ACC сервисов.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`s3cluster_volume_service_configured_count{svc_type="ACC"} - s3cluster_volume_service_count{svc_type="ACC"} > 0`
Шаблон сообщения:
Количество активных сервисов ACC уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ActiveServicesReduced_GW#
Уменьшилось количество активных GW сервисов.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`s3cluster_volume_service_configured_count{svc_type="GW"} - s3cluster_volume_service_count{svc_type="GW"} > 0`
Шаблон сообщения:
Количество активных сервисов GW уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ActiveServicesReduced_NS#
Уменьшилось количество активных NS сервисов.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`s3cluster_volume_service_configured_count{svc_type="NS"} - s3cluster_volume_service_count{svc_type="NS"} > 0`
Шаблон сообщения:
Количество активных сервисов NS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ActiveServicesReduced_OS#
Уменьшилось количество активных OS сервисов.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`s3cluster_volume_service_configured_count{svc_type="OS"} - s3cluster_volume_service_count{svc_type="OS"} > 0`
Шаблон сообщения:
Количество активных сервисов OS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ClusterBlockedReplication#
Заблокированная или медленная репликация в кластере.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(mdsd_cluster_replication_stuck_chunks[5m]) > 0 or increase(mdsd_cluster_replication_touts_total[5m]) > 0
Шаблон сообщения:
Репликация чанков заблокирована или слишком медленная.
ClusterCriticallyHighChunks#
Критически большое количество чанков в кластере.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
mdsd_fs_chunk_maps_sum >= 15000000
Шаблон сообщения:
В кластере слишком много чанков, что замедляет работу службы метаданных.
ClusterCriticallyHighFiles#
Критически большое количество файлов в кластере.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
mdsd_fs_files_sum >= 10000000
Шаблон сообщения:
В кластере слишком много файлов, что замедляет работу службы метаданных.
ClusterFailedChunkServices#
Неисправные службы чанков в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
sum(mdsd_cs_status_value{status="failed"}) + sum(mdsd_cs_status_value{status="failed rel"}) > 0
Шаблон сообщения:
Некоторые службы чанков завершились с ошибкой. Это может быть вызвано сбоем физического диска.
ClusterLowPhysicalSpace#
Нехватка физического пространства в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.2
Шаблон сообщения:
Осталось мало свободного физического пространства на уровне хранения {{ $labels.tier }}.
ClusterOfflineChunkServices#
Оффлайн службы чанков в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
sum(mdsd_cs_status_value{status="offline"}) > 0
Шаблон сообщения:
Некоторые службы чанков находятся в оффлайн. Проверьте и перезапустите их.
ClusterOutOfPhysicalSpace#
Исчерпание физического пространства в кластере.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.1
Шаблон сообщения:
Недостаточно свободного физического пространства на уровне хранения {{ $labels.tier }}.
ClusterTooManyChunks#
Слишком много чанков в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
15000000 > mdsd_fs_chunk_maps_sum > 10000000
Шаблон сообщения:
В кластере слишком много чанков, что замедляет работу службы метаданных.
ClusterTooManyFiles#
Слишком много файлов в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
10000000 > mdsd_fs_files_sum > 4000000
Шаблон сообщения:
В кластере слишком много файлов, что замедляет работу службы метаданных.
ClusterUnavailableMetadataServices#
Недоступные службы метаданных в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
count(up{service="MDS"}) - sum(up{service="MDS"}) > 0
Шаблон сообщения:
Некоторые службы метаданных находятся в оффлайн или завершились с ошибкой. Проверьте и перезапустите их.
FSFailedStart#
Неудачный запуск файловой службы.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(ostor_svc_start_failed_count_total{service="FS"}[5m]) > 1
Шаблон сообщения:
Агент объектного хранилища не смог запустить файловую службу по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
HaproxyFrontendBytesInTotal#
Отсутствие входящего трафика haproxy в течении 5 минут.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`sum(rate(haproxy_frontend_bytes_in_total[5m])*8) by (instance) == 0`
Шаблон сообщения:
Отсутствие входящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
HaproxyFrontendBytesOutTotal#
Отсутствие исходящего трафика haproxy в течении 5 минут.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`sum(rate(haproxy_frontend_bytes_out_total[5m])*8) by (instance) == 0`
Шаблон сообщения:
Отсутствие исходящего трафика haproxy в течении 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceCapacityUtilizationAlarm#
Утилизация лицензий превысила 95%.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`(vstorage_space_free*100/vstorage_license_capacity >= 95) AND (vstorage_space_free*100/vstorage_license_capacity < 99)`
Шаблон сообщения:
Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceCapacityUtilizationCritical#
Утилизация лицензий превысила 99%.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
`vstorage_space_free*100/vstorage_license_capacity >= 99`
Шаблон сообщения:
Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceCapacityUtilizationWarning#
Утилизация лицензий превысила 85%.
Период: 1m
(1 минута).
Важность: info.
Категория: func_service
.
Выражение PromQL:
`(vstorage_space_free*100/vstorage_license_capacity >= 85) AND (vstorage_space_free*100/vstorage_license_capacity < 95)`
Шаблон сообщения:
Утилизация лицензий МХД.О превысила 85% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceExpirationAlarm#
До истечения лицензий МХД.О менее 14 дней.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`(vstorage_license_expiration_ts*1000 <= 14) AND (vstorage_license_expiration_ts*1000 > 7)`
Шаблон сообщения:
До истечения лицензий МХД.О менее 14 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceExpirationCritical#
До истечения лицензий МХД.О менее 7 дней.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
`vstorage_license_expiration_ts*1000 <= 7`
Шаблон сообщения:
До истечения лицензий МХД.О менее 7 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceExpirationWarning#
До истечения лицензий МХД.О менее 30 дней.
Период: 1m
(1 минута).
Важность: info.
Категория: func_service
.
Выражение PromQL:
`(vstorage_license_expiration_ts*1000 <= 30) AND (vstorage_license_expiration_ts*1000 > 14)`
Шаблон сообщения:
До истечения лицензий МХД.О менее 30 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
MHDoPostgresSizeH3GB#
Размер служебной БД PostgreSQL МХД.О превысил 3 Гб.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
mhdo_pg_bd_size > 3 * 1024 * 1024 * 1024
Шаблон сообщения:
База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более 3 Гб
MHDoPostgresSpaceCritical#
Служебная БД PostgreSQL МХД.О занимает более половины размера корневой директории.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
sum(pg_bd_size) by (database_name) / sum(node_filesystem_size_bytes{mountpoint="/"}) > 0.5
Шаблон сообщения:
База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более половины размера корневой директории
MHDoPostgresSyncError#
Между мастер-сервером и репликой базы данных PostgreSQL обнаружена рассинхронизация.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
mhdo_pg_bytes_behind != 0
Шаблон сообщения:
Реплика БД PostgreSQL {{ $labels.application_name}} ПАК {{$labels._pak_id}} отстаёт от мастера на {{ $value }} байт(а)
MasterMetadataServiceFrequentChanges#
Частая смена главной службы метаданных.
Период: `10m (10 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
topk(1, mdsd_is_master_top1) and (delta(mdsd_master_uptime[1h]) < 300000)
Шаблон сообщения:
Главная служба метаданных изменилась более одного раза за 5 минут.
MetadataServiceCriticallyHighLatency#
Критически высокая задержка коммитов службы метаданных.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) >= 5
Шаблон сообщения:
Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 5 секунд.
MetadataServiceHighCPU#
Высокая загрузка процессора службы метаданных.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
(sum by (_node_id) (rate(process_cpu_seconds_total[5m])) * 100) > 80
Шаблон сообщения:
Служба метаданных на узле {{ $labels._node_id }} имеет загрузку процессора выше 80%. Служба может быть перегружена.
MetadataServiceHighCommitLatency#
Высокая задержка коммитов службы метаданных.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
5 > histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) > 1
Шаблон сообщения:
Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 1 секунды.
NFSServiceUnavailableFSServices#
Недоступные файловые службы NFS.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
count(up{service="FS"}) by (instance) > sum(up{service="FS"}) by (instance)
Шаблон сообщения:
Некоторые файловые службы не работают на узле {{ $labels._node_id }}. Проверьте статус службы в командной строке.
NameServiceCriticallyHighCommitLatency#
Критически высокая задержка коммитов службы имён.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) >= 10000000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.
NameServiceCriticallyHighLatency#
Критически высокая задержка запросов службы имён.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.
NameServiceHighCommitLatency#
Высокая задержка коммитов службы имён.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) > 1000000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.
NameServiceHighLatency#
Высокая задержка запросов службы имён.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
5000 > histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.
NetworkBondNotRedundant#
Сетевой бонд не избыточен.
Период: 5m
(5 минут).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
`node_bonding_slaves - node_bonding_active > 0`
Шаблон сообщения:
Сетевой бонд {{ $labels.master }} на узле {{ $labels._node_id }} не имеет {{ $labels.value }} подчиненных интерфейсов.
NodeFailedMapRequests#
Неудавшиеся запросы карты на узле.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
fused_maps_failed > 0 or rate(fused_map_failures_total[5m]) > 0
Шаблон сообщения:
Некоторые запросы карты на узле {{ $labels._node_id }} завершились неудачно.
NodeHighTransmitPacketError#
Высокая частота ошибок исходящих пакетов.
Период: 5m
(5 минут).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
node_network_transmit_errs_total_rate > 1000
Шаблон сообщения:
Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.
NodeStuckIORequests#
Застрявшие запросы ввода-вывода на узле.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
fused_stuck_reqs_30s > 0 or fused_stuck_reqs_10s > 0
Шаблон сообщения:
Некоторые запросы ввода-вывода застряли на узле {{ $labels._node_id }}.
ObjectServiceCriticallyHighCommitLatency#
Критически высокая задержка коммитов объектной службы.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) >= 10000000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.
ObjectServiceCriticallyHighLatency#
Критически высокая задержка запросов объектной службы.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.
ObjectServiceHighCommitLatency#
Высокая задержка коммитов объектной службы.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) > 1000000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.
ObjectServiceHighLatency#
Высокая задержка запросов объектной службы.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
5000 > histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.
ObjectStorageAgentFrozen#
Замороженный агент объектного хранилища.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(pcs_process_inactive_seconds_total{service="OS"}[5m]) > 0
Шаблон сообщения:
Агент объектного хранилища по адресу {{ $labels.instance }} имеет неактивный цикл событий более 1 минуты.
ObjectStorageAgentNoConfigConnection#
Агент объектного хранилища не подключен к службе конфигурации.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(ostor_svc_registry_cfg_failed_total[5m]) > 1
Шаблон сообщения:
Агент объектного хранилища не смог подключиться к службе конфигурации по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
ObjectStorageAgentOffline#
Оффлайн агент объектного хранилища.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
up{service="OSTOR_REPLICATO"} == 0
Шаблон сообщения:
Агент объектного хранилища находится в оффлайн по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
S3ClusterUnavailableGeoReplicationServices#
Недоступные службы георепликации в кластере S3.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
count(up{service="GR"}) by (instance) > sum(up{service="GR"}) by (instance)
Шаблон сообщения:
Некоторые службы георепликации не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3ClusterUnavailableNameServices#
Недоступные службы имён в кластере S3.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
count(up{service="NS"}) by (instance) > sum(up{service="NS"}) by (instance)
Шаблон сообщения:
Некоторые службы имен не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3ClusterUnavailableObjectServices#
Недоступные объектные службы в кластере S3
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
count(up{service="OS"}) by (instance) > sum(up{service="OS"}) by (instance)
Шаблон сообщения:
Некоторые объектные службы не работают по адресу {{ $labels.instance }} ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3ClusterUnavailableS3GatewayServices#
Недоступные службы шлюза S3 в кластере.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
count(up{service="S3GW"}) by (instance) > sum(up{service="S3GW"}) by (instance)
Шаблон сообщения:
Некоторые службы шлюза S3 не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3GatewayCriticallyHighCPU#
Критически высокая загрузка процессора шлюза S3.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
(sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) >= 90
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 90%. Служба может быть перегружена.
S3GatewayCriticallyHighCancelRate#
Критически высокая частота отмены запросов шлюза S3.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 >= 30
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 30%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.
S3GatewayCriticallyHighGetLatency#
Критически высокая задержка GET-запросов шлюза S3.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (_pak_id, instance, le)) >= 5000
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 5 секунд.
S3GatewayHighCPU#
Высокая загрузка процессора шлюза S3.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
90 > (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) > 75
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 75%. Служба может быть перегружена.
S3GatewayHighCancelRate#
Высокая частота отмены запросов шлюза S3.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
30 > ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 > 5
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 5%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.
S3GatewayHighFailedRequests#
Большое количество неудачных запросов шлюза S3.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
((sum(ostor_req_server_err_rate) by (instance, _pak_id)) / (sum(ostor_s3gw_req_rate) by (instance, _pak_id))) * 100 > 5
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет много неудачных запросов с ошибкой сервера (код состояния 5XX).
S3GatewayHighGetLatency#
Высокая задержка GET-запросов шлюза S3.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
5000 > histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 1 секунды.
S3ServiceFailedStart#
Неудачный запуск службы S3.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(ostor_svc_start_failed_count_total{service=~"OS | NS | S3GW"}[5m]) > 1
Шаблон сообщения:
Агент объектного хранилища не смог запустить {{ $labels.service }} по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
S3ServiceFrozen#
Замороженная служба S3.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
increase(pcs_process_inactive_seconds_total{service=~"S3GW | OS | NS"}[5m]) > 0
Шаблон сообщения:
Служба S3 ({{ $labels.service }}, по адресу {{ $labels._pak_id }}) ПАК {{ $labels._pak_id }} имеет неактивный цикл событий более 1 минуты.
ServerControlHttpFailsCritical#
Ошибок 5хх более 1 процента в минуту.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
`s3gw_control_http_response{code=~"5.*"}*100/sum(s3gw_control_http_response) >= 1`
Шаблон сообщения:
Количество запросов на control {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту.
ServerProxyHttpFailsCritical#
Ошибок 5хх более 1 процента в минуту.
Период: 1m
(1 минута).
Важность: critical.
Категория: func_service
.
Выражение PromQL:
`s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) >= 1`
Шаблон сообщения:
Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх более 1% от общего числа запросов в минуту.
ServerProxyHttpFailsInfo#
Ошибок 5хх менее 0.1 процента в минуту.
Период: 1m
(1 минута).
Важность: info.
Категория: func_service
.
Выражение PromQL:
`s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) < 0.1`
Шаблон сообщения:
Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх менее 0.1% от общего числа запросов в минуту.
ServerProxyHttpFailsWarning#
Ошибок 5хх от 0.1 до 1 процента в минуту.
Период: 1m
(1 минута).
Важность: warning.
Категория: func_service
.
Выражение PromQL:
`(s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) > 0.1) AND (s3gw_proxy_http_response{code=~"5.*"}*100/sum(s3gw_proxy_http_response) < 1)`
Шаблон сообщения:
Количество запросов на proxy {{ $labels._node_id }} ПАК {{ $labels._pak_id}} со статусом 5хх в интервале от 0.1 до 1% от общего числа запросов в минуту.
SystemUnitChronydRestart#
Перезапуск сервиса chronyd.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="chronyd.service"} < systemd_service_uptime{service="chronyd.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitChronydStoped#
Остановка сервиса chronyd.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="chronyd.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitHaproxyRestart#
Перезапуск сервиса haproxy.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="haproxy.service"} < systemd_service_uptime{service="haproxy.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitHaproxyStoped#
Остановка сервиса haproxy.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="haproxy.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitKeepalivedRestart#
Перезапуск сервиса keepalived.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="keepalived.service"} < systemd_service_uptime{service="keepalived.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitKeepalivedStoped#
Остановка сервиса keepalived.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="keepalived.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitNginxRestart#
Перезапуск сервиса nginx.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="nginx.service"} < systemd_service_uptime{service="nginx.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitNginxStoped#
Остановка сервиса nginx.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="nginx.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorAgentdRestart#
Перезапуск сервиса ostor-agentd.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="ostor-agentd.service"} < systemd_service_uptime{service="ostor-agentd.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorAgentdStoped#
Остановка сервиса ostor-agentd.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="ostor-agentd.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorCfgdRestart#
Перезапуск сервиса ostor-cfgd.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="ostor-cfgd.service"} < systemd_service_uptime{service="ostor-cfgd.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorCfgdStoped#
Остановка сервиса ostor-cfgd.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="ostor-cfgd.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPacemakerRestart#
Перезапуск сервиса pacemaker.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="pacemaker.service"} < systemd_service_uptime{service="pacemaker.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPacemakerStoped#
Остановка сервиса pacemaker.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="pacemaker.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPostgresRestart#
Перезапуск сервиса postgres.server
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="postgres.server"} < systemd_service_uptime{service="postgres.server"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса postgres.server на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPostgresStoped#
Остановка сервиса postgres.server
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="postgres.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса postgres.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayCompressionServerRestart#
Перезапуск сервиса s3gateway-compression-server.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="s3gateway-compression-server.service"} < systemd_service_uptime{service="s3gateway-compression-server.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-compression.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayCompressionServerStoped#
Остановка сервиса s3gateway-compression-server.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="s3gateway-compression-server.service"} != 1`
Шаблон сообщения:
Произошла остановка сервиса s3gateway-compression-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayControlServerRestart#
Перезапуск сервиса s3gateway-control-server.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="s3gateway-control-server.service"} < systemd_service_uptime{service="s3gateway-control-server.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-control.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayControlServerStoped#
Остановка сервиса s3gateway-control-server.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="s3gateway-control-server.service"} != 1`
Шаблон сообщения:
Произошла остановка сервиса s3gateway-control-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayOstorServerRestart#
Перезапуск сервиса s3gateway-ostor-server.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="s3gateway-ostor-server.service"} < systemd_service_uptime{service="s3gateway-ostor-server.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-ostore.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayOstorServerStoped#
Остановка сервиса s3gateway-ostor-server.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="s3gateway-ostor-server.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса s3gateway-ostor-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayProxyServerRestart#
Перезапуск сервиса s3gateway-proxy-server.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service="s3gateway-proxy-server.service"} < systemd_service_uptime{service="s3gateway-proxy-server.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-proxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayProxyServerStoped#
Остановка сервиса s3gateway-proxy-server.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name="s3gateway-proxy-server.service"} != 1`
Шаблон сообщения:
Произошла остановка сервиса s3gateway-proxy-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageCsdRestart#
Перезапуск сервиса вида vstorage-csd.X.X.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса вида vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageCsdStoped#
Остановка сервиса вида vstorage-csd.X.X.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageMdsdStoped#
Остановка сервиса вида vstorage-mdsd.X.X.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageMsdRestart#
Перезапуск сервиса вида vstorage-mdsd.X.X.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса вида vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageShamanRestart#
Перезапуск сервиса вида vstorage-shaman@X.service
.
Период: 1m
(1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
`(systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} < systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} offset 1m) == 1`
Шаблон сообщения:
Произошел перезапуск сервиса вида vstorage-shaman@X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageShamanStoped#
Остановка сервиса вида vstorage-shaman@.X.service
.
Период: 1m
(1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
`systemd_unit_state{name=~"shaman@[a-zA-Z0-9]+\\.service"}!= 1`
Шаблон сообщения:
Произошла остановка сервиса vstorage-shaman@.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}