Node

Дашборд отображает метрики выбранного узла.

Для перехода к дашборду:

  1. Авторизуйтесь в Grafana.
  2. На панели навигации выберите Dashboards.
  3. В дереве дашбордов найдите узел МВ.К → Deckhouse → Node.
Примечание
Подробное описание метрик см. в документации ядра Linux

Quick CPU / Mem Disk#

CPU Busy#

Суммарная нагрузка на ядра CPU узла.

Sys Load (5m avg)#

Средняя нагрузка на узел за последние 5 минут.

Sys Load (15m avg)#

Средняя нагрузка на узел за последние 15 минут.

RAM Used#

Использование RAM узла в процентах.

SWAP Used#

Утилизация раздела подкачки в процентах.

Если раздел подкачки не используется, выводится значение N/A.

Root FS Used#

Степень заполнения дискового пространства корневого раздела.

CPU Cores#

Количество ядер CPU.

Uptime#

Количество времени, прошедшего с последней загрузки.

RootFS Total#

Размер корневого раздела.

RAM Total#

Количество установленной RAM.

SWAP Total#

Размер раздела подкачки.

Basic CPU / Mem / Net / Disk#

CPU Basic#

График потребления ресурсов CPU.

Легенда:

  • Busy System — выполнение задач на уровне ядра.
  • Busy User — выполнение задач на уровне пользователя.
  • Busy Iowait — ожидание завершения задач ввода/вывода.
  • Steal — выполнение задач других ОС, запущенных в режиме виртуализации.
  • Idle — режим ожидания.
  • Busy Other — прочие задачи.

Memory Basic#

График потребления RAM и раздела подкачки.

Легенда:

  • RAM Total — общее количество установленной RAM.
  • RAM Used — используемое количество RAM.
  • RAM Cache + Buffer — количество RAM, занятой под кеш и буферы.
  • RAM Free — количество свободной RAM.
  • SWAP Used — используемое пространство раздела подкачки.

Network Traffic Basic#

График нагрузки на сетевые интерфейсы.

Легенда:

  • trans — скорость передачи пакетов.
  • recv — скорость приёма пакетов.

Disk Space Used Basic#

График использования хранилища.

Легенда формируется автоматически на основе записей в таблице разделов.

CPU / Memory / Net / Disk#

CPU#

График потребления ресурсов CPU.

Легенда:

  • System — выполнение задач на уровне ядра.
  • User — выполнение задач на уровне пользователя.
  • Nice — выполнение задач на уровне пользователя, но с изменённым приоритетом.
  • Idle — режим ожидания.
  • Iowait — ожидание завершения задач ввода/вывода.
  • Irq — обслуживание системных прерываний.
  • Softirq — обслуживание «мягких» системных прерываний.
  • Steal — выполнение задач других ОС, запущенных в режиме виртуализации.

Memory Stack#

График потребления RAM и раздела подкачки.

Легенда:

  • Apps — количество RAM, использованной приложениями, запущенными в пользовательском режиме.
  • PageTables — количество страниц визической памяти, отображаемой в виртуальное адресное пространство.
  • SwapCache — количество памяти, которая занята данными из раздела подкачки, но пока не была изменена.
  • Slab — количество памяти, занятой кешем данных внутренних структур ядра.
  • Cache — файловый кеш (данные, ассоциированные с файлами).
  • Buffers — дисковый кеш (данные, ассоциированные с дисковыми устройствами).
  • Unused — свободная память.
  • Swap — используемое пространство раздела подкачки.
  • Hardware Corrupted — память, отмеченная ядром как повреждённая.

Network Traffic#

Подробный график нагрузки на сетевые интерфейсы.

В колонке Name выводится название сетевого интерфейса и тип операции:

  • Receive — приём пакетов.
  • Transmit — скорость передачи пакетов.

Disk Space Used#

Подробный график использования хранилища.

В колонке Name выводится название раздела.

Disk IOps#

График количества операций ввода/вывода в хранилище.

В колонке Name выводится название дискового устройства и тип операции:

  • Reads completed — завершённые операции чтения.

  • Writes completed — завершённые операции записи.

I/O Usage Read / Write#

График скорости ввода/вывода в хранилище.

В колонке Name выводится название дискового устройства и тип операции:

  • Successfully read bytes — чтение.

  • Successfully write bytes — запись.

I/O Utilization#

Утилизация ресурсов ввода/вывода в процентах.

В колонке Name выводится название дискового устройства.

Memory Meminfo#

Memory Active / Inactive#

График использования оперативной памяти.

В колонке Name выводится тип операции и краткое описание:

  • Inactive — объём редко используемой оперативной памяти.

  • Active — объём часто используемой оперативной памяти.

Memory Commited#

График использования виртуального адресного пространства.

Легенда:

  • Commited_AS — объём доступной памяти в виртуальном адресном пространстве.

  • CommitLimit — ограничение на размер виртуального адресного пространства.

Memory Active / Inactive Detail#

Подробный график использования оперативной памяти.

В колонке Name выводится название метрики и её краткое описание:

  • Inactive_file — количество памяти, освобождённой при очистке файлового кеша.

  • Inactive_anon — количество памяти, освобождённой от анонимного кеша и кеша раздела подкачки, в том числе содержимого разделов tmpfs.

  • Active_file — количество памяти, занятой файловым кешем.

  • Active_anon — количество памяти, занятой анонимным кешем и кешем раздела подкачки, в том числе содержимым разделов tmpfs.

Memory Writeback and Dirty#

График записи изменённых страниц памяти на диск («сброс» страниц памяти).

В колонке Name выводится тип операции и краткое описание:

  • Writeback — количество памяти, которая активно записывается на диск.

  • WritebackTmp — количество памяти, занятой временными дисковыми буферами FUSE.

  • Dirty — количество памяти, которая ожидает записи на диск.

Memory Shared and Mapped#

График использования разделяемой (shared) и сопоставленной (mapped) памяти.

В колонке Name выводится тип разделения или отображения:

  • Mapped — количество памяти, используемой сопоставленными страницами, например, библиотеками.

  • Shmem — общая память, используемая пользовательскими процессами и разделами tmpfs.

  • ShmemHugePages — разделяемая память и память tmpfs, занятая в огромных страницах.

  • ShmemPmdMapped — объём разделяемой памяти, возвращённой в огромные страницы.

Memory Slab#

Использование кеша структурами ядра (Slab, in-kernel data structures cache):

  • SUnreclaim — часть Slab, которая не может быть восстановлена при сжатии памяти.

  • SReclaimable — часть Slab, которая может быть восстановлена при сжатии памяти, например, кеш.

Memory VMalloc#

График использования виртуального адресного пространства памяти.

В колонке Name выводится информация о виртуальном адресном пространстве:

  • VmallocChunk — размер наибольшего свободного непрерывного блока в виртуальном адресном пространстве.

  • VmallocTotal — общий размер виртуального адресного пространства.

  • VmallocUsed — объём использованного виртуального адресного пространства.

Memory Bounce#

График использования оперативной памяти под дисковые буферы.

Memory Anonymous#

График использования анонимных страниц памяти.

В колонке Name выводится название типа страниц:

  • AnonHugePages — огромные анонимные страницы памяти.

  • AnonPages — пользовательские страницы памяти, не связанные с файлами.

Memory Kernel / CPU#

График использования оперативной памяти структурами ядра.

В колонке Name выводится название типа памяти ядра:

  • KernelStack — память основных структур ядра.

  • PerCPU — память, используемая динамически загружаемыми модулями ядра.

Memory HugePages Counter#

График изменения количества огромных страниц:

  • HugePages_Free — количество не выделенных страниц.

  • HugePages_Rsvd — количество страниц, которые были запрошены на выделение, но выделить их не удалось.

  • HugePages_Surp — количество огромных страниц в пуле, превышающее значение в /proc/sys/vm/nr_hugepages.

Подробное описание параметров см. в документации ядра Linux .

Memory HugePages Size#

График изменения размера огромных страниц:

  • HugePages — общий размер пула огромных страниц.

  • Hugepagesize — размер огромной страницы.

Memory DirectMap#

Количество оперативной памяти, напрямую сопоставленной (mapped) со страницами различных размеров:

  • DirectMap1G — страницы размером 1 ГБ.

  • DirectMap2M — страницы размером 2 МБ.

  • DiirecMap4K — страницы размером 4 КБ.

Memory Unevictable and MLocked#

График изменения количества оперативной памяти, защищённой от выгрузки.

  • Unevictable — количество оперативной памяти, страницы которой не могут быть выгружены.

  • MLocked — количество оперативной памяти, страницы которой заблокированы от выгрузки на диск системным вызовом mlock() или mlockall().

Memory NFS#

График использования оперативной памяти под страницы NFS, которые были отправлены на сервер, но их запись в хранилище не подтверждена.

Memory Vmstat#

Memory Pages In / Out#

Количество страниц оперативной памяти, загруженных с диска или выгруженных на него:

  • Pagesin — количество страниц, загруженных с диска;

  • Pagesout — количество страниц, выгруженных на диск.

Memory PAges Swap In / Out#

График обмена страниц памяти с разделом подкачки.

В колонке Name выводится тип операции:

  • Pswpin — перенос страниц из оперативной памяти на раздел подкачки.

  • Pswpout — перенос страниц с раздела подкачки в оперативную память.

Memory Page Faults#

График отказов при выполнении операций со страницами памяти.

В колонке Name выводится название группы операций:

  • Pgfault — сумма значений Pgmajfault и Pgminfault.

  • Pgmajfault — отказы при выполнении основных операций со страницами памяти.

  • Pgminfault — отказы при выполнении дополнительных операций со страницами памяти.

OOM Killer#

Счётчик количества вызовов OOM (Out Of Memory) killer.

System Timesync#

График отклонения системного времени от эталонных часов:

  • Estimated error in seconds — оценочный размер отклонения в секундах.

  • Time offset between local system and reference clock — смещение между локальными и эталонными часами.

  • Maximum error in seconds — оценочный размер максимального отклонения между локальными и эталонными часами.

Time PLL Adjust#

PLL, Phase-Locked Loop — состояние цепи обратной связи, используемой для синхронизации частоты локального генератора с эталонным, чтобы минимизировать разницу во времени.

Time Synchronized Status#

Статус синхронизации времени:

  • Is clock synchronized to a reliable server — статус синхронизации локальных часов с сервером точного времени.

  • Local clock frequency adjustment — корректировка частоты локального генератора сигналов.

Time Misc#

График изменения периода между тиками часов и сдвига относительно международного атомного времени.

  • Seconds between clock ticks — период между тиками часов.

  • International Atomic Time (TAI) offset — сдвиг относительно международного атомного времени.

System Processes#

Processes Status#

График изменения статуса процессов в разрезе ввода/вывода.

  • Processes blocked waiting for I/O to complete — количество процессов, ожидающих завершения операций ввода/вывода.

  • Processes in runnable state — количество выполняемых процессов.

Processes State#

Количество процессов, находящихся в одном из состояний:

  • D — непрерывный режим ожидания (ждёт освобождения ресурсов или сигнала);
  • I — незанятый поток ядра;
  • R — запущен или доступен для выполнения;
  • S — прерываемый режим ожидания (ожидает завершения события).
  • T — остановлен сигналом управления задачами.
  • Z — процесс-«зомби»: завершён, но ещё не обработан родительским процессом.
Примечание
Отображаются только состояния, в которых находится хотя бы один процесс.

Processes Forks#

График количества системных вызовов fork().

Processes Memory#

График использования оперативной памяти процессами.

  • Processes virtual memory size in bytes — размер виртуального адресного пространства, занятого процессами, в байтах.

  • Maximum amount of virtual memory available in bytes — максимальный размер виртуального адресного пространства в байтах.

PIDs Number and Limit#

График использования идентификаторов процессов (PID, Process ID).

  • Number of PIDs — значение последнего использованного PID.

  • PIDs limit — ограничение на значение PID.

Threads Number and Limit#

График использования количества доступных тредов.

  • Allocated threads — количество использованных тредов.

  • Threads limit — ограничение на количество тредов.

System Misc#

Context Switches / Interrupts#

График изменения количества переключений контекста и прерываний за выбранный период.

System Load#

Графики нагрузки на систему за 1 минуту, 5 минут и 15 минут соответственно.

Entropy#

График доступности энтропии для генератора случайных чисел.

CPU time spent in user and system context#

График изменения количества суммарного процессорного времени, затраченного на выполнение задач в пользовательском и системном контекстах.

File descriptors#

График изменения количества открытых файловых дескрипторов:

  • Maximum open file descriptors — максимально возможное количество открытых файловых дескрипторов.

  • Open file descriptors — количество открытых файловых дескрипторов.

Storage Disk#

Сведения о хранилище узла.

Disk IOps Completed#

График изменения количества операций ввода/вывода в секунду.

Disk R/W Data#

График изменения скорости чтения/записи на диск.

Disk Average Wait Time#

Среднее время ожидания при выполнении операций чтения/записи на диск.

Average Queue Size#

Средняя длина очереди операций чтения/записи на диск.

Disk R/W Merged#

График изменения количества объединённых запросов записи на диск.

Time Spent Doing I/Os#

График изменения количества процессорного времени, затраченного на выполнение задач ввода/вывода.

Instantaneous Queue Size#

График изменения длины очереди процессов, которые готовы к выполнению но не могут быть запущены из-за занятости CPU выполнением других задач.

Disk IOps Discards completed / merged#

График изменения количества завершенных или объединенных операций по освобождения блоков в дисковом хранилище.

Storage Filesystem#

Набор панелей отображает информацию о файловой системе узла.

Filesystem space available#

График изменения размера свободного дискового пространства по разделам.

Filesystem size#

График изменения размера занятого дискового пространства по разделам.

File Descriptor#

График изменения количества открытых файлов:

  • Max open files — максимально возможное количество открытых файлов.

  • Open files — количество открытых файлов.

File Nodes Free#

График изменения количества свободных файловых узлов по разделам.

Filesystem in ReadOnly / Error#

График нахождения разделов в состоянии «Только чтение» или «Ошибка».

File Nodes Size#

График изменения количества занятых файловых узлов по разделам.

Network Traffic#

Network Traffic by Packets#

График изменения скорости приёма и отправки пакетов сетевыми интерфейсами узла, пакетов в секунду.

Network Traffic Errors#

График изменения количества ошибок приёма и отправки пакетов сетевыми интерфейсами узла, пакетов в секунду.

Network Traffic Drop#

График изменения количества пакетов отброшенных при приёме и отправке.

Network Traffic Compressed#

График изменения количества принятых и отправленных сжатых пакетов.

Network Traffic Multicast#

График изменения количества принятых и отправленных пакетов.

Network Traffic Fifo#

График изменения количества пакетов в очередях приёма и отправки.

Network Traffic Frame#

График изменения количества принятых и отправленных сетевых кадров.

Network Traffic Carrier#

График изменения количества физических или логических каналов, по которым выполняется передача данных.

Network Traffic Colls#

График изменения количества коллизий при приёме и отправке данных.

NF Contrack#

График изменения количества данных, отслеживаемых через подсистему nfnetlink.

  • NF conntrack entries — объём данных, обработанных с помощью nfnetlink.

  • NF conntrack limit — ограничение на объём данных, которые могут быть обработаны с помощью nfnetlink.

Подробности см. в документации ядра Linux .

ARP Entries#

Количество ARP-запросов, обработанных каждым сетевым интерфейсом.

MTU#

График изменения максимального размера полезного блока данных одного пакета, который может быть передан протоколом без фрагментации.

Speed#

График изменения скорости передачи данных каждым сетевым интерфейсом.

Queue Length#

Длина очереди пакетов на приём и передачу соответственно.

Network Operational Status#

Статусы сетевых интерфейсов узла:

  • 0 — не активен;
  • 1 — работает.

Network Sockstat#

Информация об использовании сокетов.

Sockstat TCP#

График изменения количества TCP-сокетов:

  • TCP_alloc — количество доступных TCP-сокетов.
  • TCP_inuse — количество используемых TCP-сокетов.
  • TCP_orphan — количество используемых TCP-сокетов, которые никому не принадлежат.
  • TCP_tw — количество TCP-сокетов, ожидающих закрытия.

Sockstat UDP#

График изменения количества UDP-сокетов:

  • UDPLITE_inuse — количество используемых сокетов Udplite.
  • UDP_inuse — количестве используемых UDP-сокетов.
  • UDP_mem — количество оперативной памяти, занятой UDP-сокетами.

Sockstat Used#

График изменения количества используемых сокетов.

Sockstat Memory Size#

График изменения количества оперативной памяти, используемой TCP- и UDP-сокетами соответственно.

Sockstat FRAG / RAW#

График изменения FRAG-сокетов:

  • FRAG_inuse — количество используемых FRAG-сокетов.
  • FRAG_memory — количество иоперативной памяти, занятой FRAG-сокетами.
  • RAW_inuse — количество используемых RAW-сокетов.

Network Netstat#

Netstat IP In / Out Octets#

График изменения количества входящих и исходящих октетов.

Netstat IP Forwarding#

График изменения состояния перенаправления IP-пакетов.

ICMP In / Out#

График изменения количества входящих и исходящих ICMP-пакетов.

ICMP Errors#

График изменения количества ошибок ICMP-пакетов.

UDP In / Out#

График изменения количества принятых и отправленных дейтаграмм.

UDP Errors#

График изменения количества ошибок обработки URP-пакетов:

  • InErrors — дейтаграммы UDP, которые не могут быть доставлены приложению.

  • NoPorts — дейтаграммы, отправленные на порт, который никто не слушает.

  • InErrors Lite — дейтаграммы UDPLite, которые не могут быть доставлены приложению.

TCP In / Out#

График изменения количества сегментов TCP:

  • InSegs — количество принятых сегментов, в том числе принятых с ошибкой.

  • OutSegs — количество отправленных сегментов, включая активные подключения, но за вычетом пересланных октетов.

TCP Errors#

График изменения количества ошибок TCP:

  • ListenOverflows — переполнение очереди ожидания сокета.

  • ListenDrops — игнорирование SYN-пакетов.

  • TCPSynRetrans — количество повторных попыток отправить TCP SYN-пакет для начала трёхстороннего рукопожатия.

  • RetransSegs — количество пересланных сегментов, содержащих переданные ранее октеты.

  • InErrs — ошибки получения сегментов, например, несовпадение контрольной суммы пакета TCP.

TCP Connections#

График изменения количества подключений, находящихся в активном статусе или ожидающих закрытия.

TCP SynCookie#

График изменения количества SYN cookie:

  • SyncookiesFailed — ошибки получения SYN cookie.

  • SyncookiesRecv — полученные SYN cookie.

  • SyncookiesSent — отправленные SYN cookie.

TCP Direct Transition#

График изменения количества открытых подключений TCP:

  • ActiveOpens — активные TCP-подключения.

  • PassiveOpens — пассивные TCP-подключения.

TCP TikeWait#

График изменения количества TCP-сокетов, закрытых по причине ожидания:

  • TW — завершение ожидания быстрого таймера.

  • TWKilled — завершение медленного таймера.

  • TWRecycled — сокет закрыт по метке времени.

  • TCPTimeWaitOverflow — сокет закрыт из-за переполнения бакета.

Node Exporter#

Графики состояния node_exporter .

Node Exporter Scrape Time#

Время, затраченное на получение метрики каждого типа.

Node Exporter Scrape#

Статус получения метрики каждого типа:

  • 0 — неуспешно;
  • 1 — успешно.