Мониторинг системных ресурсов
Система мониторинга системных ресурсов в INFRAX собирает данные о загрузке процессора, использовании памяти, заполнении дисков и сетевой активности узлов. Данные визуализируются в виде интерактивных графиков, а при превышении пороговых значений система автоматически создает тикеты для реагирования на проблемы.
Обзор системы
Мониторинг системных ресурсов предоставляет детальную информацию о состоянии узлов сети и позволяет своевременно выявлять проблемы с производительностью и доступностью ресурсов.
Основные возможности
- Мониторинг CPU — отслеживание загрузки процессора в процентах и по ядрам
- Мониторинг RAM — контроль использования оперативной памяти
- Мониторинг дисков — отслеживание заполнения дисков, времени отклика, скорости передачи данных и IOPS
- Мониторинг сети — контроль входящего и исходящего трафика на сетевых интерфейсах
- История данных — сохранение метрик с возможностью построения графиков за различные периоды
- Автоматические триггеры — создание тикетов при превышении пороговых значений
Для сбора данных о системных ресурсах на узлах должны быть установлены агенты мониторинга. Ping-мониторинг работает без агентов, но для получения данных о CPU, RAM, дисках и сети требуется агент.
Мониторинг процессора (CPU)
Система отслеживает загрузку процессора узлов и позволяет выявлять проблемы с производительностью.
Собираемые данные
Метрики CPU
- Общая загрузка — процент использования процессора
- Загрузка по ядрам — детальная информация о загрузке каждого ядра
- История загрузки — временные ряды данных для анализа тренда
Настройка мониторинга CPU
В настройках узла можно настроить параметры мониторинга процессора:
- Откройте настройки узла
- Перейдите на вкладку «Мониторинг»
- В разделе «Загрузка процессора» настройте параметры:
| Параметр | Описание |
|---|---|
| Создавать тикеты при превышении нагрузки | Автоматическое создание тикетов при высокой загрузке CPU |
| Автоматически закрывать тикеты | Закрывать тикет когда загрузка вернется в норму |
| Порог загрузки | Процент использования CPU для срабатывания триггера (по умолчанию 90%) |
| Количество превышений подряд | Сколько раз подряд порог должен быть превышен для создания тикета |
Параметры мониторинга могут наследоваться от папок. Вы можете настроить общие параметры на уровне папки, и они автоматически применятся ко всем вложенным узлам, или переопределить их для конкретного узла.
Мониторинг памяти (RAM)
Система отслеживает использование оперативной памяти узлов для предотвращения проблем с нехваткой памяти.
Собираемые данные
Метрики RAM
- Общее использование — процент занятой оперативной памяти
- Свободная память — количество доступной памяти
- История использования — временные ряды данных для анализа тренда
Настройка мониторинга RAM
В настройках узла можно настроить параметры мониторинга памяти:
- Откройте настройки узла
- Перейдите на вкладку «Мониторинг»
- В разделе «Загрузка памяти» настройте параметры:
| Параметр | Описание |
|---|---|
| Создавать тикеты при превышении нагрузки | Автоматическое создание тикетов при высоком использовании памяти |
| Автоматически закрывать тикеты | Закрывать тикет когда использование памяти вернется в норму |
| Порог загрузки | Процент использования RAM для срабатывания триггера (по умолчанию 90%) |
| Количество превышений подряд | Сколько раз подряд порог должен быть превышен для создания тикета |
Мониторинг дисков
Система предоставляет комплексный мониторинг дисковой подсистемы, включая отслеживание заполнения, производительности и скорости операций.
Типы метрик дисков
Утилизация (заполнение)
Процент занятого дискового пространства на каждом диске. При превышении порога система может автоматически создать тикет.
Время отклика
Среднее время отклика диска в миллисекундах. Высокое значение может указывать на проблемы с производительностью дисковой подсистемы.
Скорость передачи
Общая скорость передачи данных (чтение + запись) на диск и с диска в МБ/с. Система также собирает отдельно скорость чтения и скорость записи.
IOPS (операций в секунду)
Количество операций ввода-вывода в секунду. Важный показатель для оценки нагрузки на дисковую подсистему.
Настройка мониторинга дисков
В настройках узла можно настроить параметры мониторинга дисков:
- Откройте настройки узла
- Перейдите на вкладку «Мониторинг»
- В разделе «Дисковое пространство» настройте параметры:
| Параметр | Описание |
|---|---|
| Создавать тикеты при превышении нагрузки | Автоматическое создание тикетов при заполнении дисков |
| Автоматически закрывать тикеты | Закрывать тикет когда заполнение вернется в норму |
| Порог заполнения диска | Процент заполнения для срабатывания триггера (по умолчанию 90%) |
Индивидуальные лимиты для дисков
Для каждого диска узла можно установить индивидуальный порог заполнения, отличный от общего для узла:
- В настройках мониторинга дисков откройте раздел «Индивидуальные лимиты дисков»
- Для каждого диска укажите свой процент заполнения
- Диски, для которых не установлены индивидуальные лимиты, будут использовать общий порог
Чтобы вернуть диск к использованию общего порога, удалите его индивидуальный лимит с помощью кнопки удаления рядом с именем диска.
Мониторинг сети
Система отслеживает сетевую активность на интерфейсах узлов, собирая данные о скорости передачи и приема данных.
Собираемые данные
Метрики сетевых интерфейсов
- Общая скорость — суммарная скорость приема и передачи данных
- Скорость приема — скорость входящего трафика в МБ/с
- Скорость передачи — скорость исходящего трафика в МБ/с
- История трафика — временные ряды данных для каждого интерфейса
Выбор интерфейса для мониторинга
Если на узле присутствует несколько сетевых интерфейсов, вы можете выбрать конкретный интерфейс для просмотра его метрик на графиках и в дашборде.
Система автоматически собирает данные со всех сетевых интерфейсов узла. Данные по каждому интерфейсу сохраняются отдельно для последующего анализа.
Настройка мониторинга
Настройки мониторинга системных ресурсов доступны для каждого узла и папки в иерархии узлов.
Доступ к настройкам мониторинга
- Откройте страницу «Узлы сети» в главном меню
- Выберите узел или папку в дереве
- Нажмите кнопку «Настройки»
- Перейдите на вкладку «Мониторинг»
Управление карточками мониторинга
В интерфейсе настроек мониторинга доступны кнопки для быстрого управления всеми карточками:
- Развернуть все — раскрыть все карточки настроек одновременно
- Свернуть все — свернуть все карточки настроек одновременно
Наследование параметров
Система поддерживает наследование параметров мониторинга от папок к вложенным узлам:
Принципы наследования
- Параметры, установленные на уровне папки, автоматически применяются ко всем вложенным узлам
- Для конкретного узла можно переопределить унаследованные параметры
- В интерфейсе индикатор наследования показывает, откуда взято текущее значение
- Кнопка сброса позволяет вернуться к использованию унаследованного значения
Параметры по умолчанию
Система имеет параметры мониторинга по умолчанию, которые применяются при отсутствии настроек на уровне папок:
| Параметр | Значение по умолчанию |
|---|---|
| Порог загрузки CPU | 90% |
| Порог загрузки RAM | 90% |
| Порог заполнения диска | 90% |
| Количество превышений подряд (CPU/RAM) | 3 раза |
Изменение параметров по умолчанию доступно только администраторам системы в глобальных настройках приложения.
Просмотр данных мониторинга
Данные мониторинга системных ресурсов доступны через интерфейс узла в виде интерактивных графиков.
Доступ к графикам мониторинга
- Откройте страницу «Узлы сети» в главном меню
- Выберите узел в дереве
- Нажмите кнопку «Мониторинг»
- Выберите вкладку с нужным типом данных: «Пинг», «ЦПУ», «ОЗУ», «Диски» или «Сеть»
Управление временным интервалом
Для графиков доступен гибкий выбор периода отображения данных:
Предустановленные интервалы
- 1 час
- 2 часа
- 4 часа
- 12 часов
- Сутки
- Неделя
- Месяц
- Задать... — произвольный период с указанием начала и конца
Навигация по данным
Для удобной работы с историческими данными доступны следующие функции:
- Кнопка «Назад» — сдвинуть период на такой же интервал назад во времени
- Кнопка «Вперёд» — сдвинуть период на такой же интервал вперед во времени
- Кнопка «Обновить» — загрузить актуальные данные за выбранный период
- Кнопка «Сбросить» — вернуться к последнему часу данных
Интерактивные возможности графиков
Работа с графиками
- Клик по графику — приблизить период вокруг выбранной точки (зум)
- Произвольный период — указать точные даты и время начала и конца периода
- Оптимизация отображения — при большом количестве точек данные автоматически прореживаются для повышения производительности
Если за выбранный период слишком много точек данных, система автоматически оптимизирует их количество для быстрого отображения. При этом сохраняются наиболее показательные точки, включая пики и минимумы. Информация об аппроксимации отображается над графиком с указанием исходного и оптимизированного количества точек.
Просмотр метрик дисков
Для просмотра данных о дисках доступны дополнительные опции:
- Перейдите на вкладку «Диски»
- Выберите интересующую метрику:
- Утилизация (заполнение)
- Время отклика
- Скорость передачи
- Скорость операций (IOPS)
- Выберите диск из выпадающего списка
- График автоматически обновится для выбранной комбинации метрики и диска
При выборе метрики «Скорость передачи» отображается комбинированный график с тремя линиями: общая скорость, скорость чтения и скорость записи. Это позволяет оценить характер нагрузки на дисковую подсистему.
Просмотр метрик сети
Для просмотра данных о сетевой активности:
- Перейдите на вкладку «Сеть»
- Выберите интересующую метрику:
- Общая скорость
- Скорость приема
- Скорость передачи
- Выберите сетевой интерфейс из выпадающего списка
- График автоматически обновится для выбранной комбинации метрики и интерфейса
Дашборд мониторинга
Сводная информация о системных ресурсах всех узлов доступна на дашборде мониторинга. Дашборд включает виджеты с топами узлов по загрузке CPU, RAM, заполнению дисков, а также детальную информацию о производительности дисковой подсистемы (IOPS, время отклика, скорости чтения/записи) и сетевой активности.
Подробнее о структуре дашборда и всех доступных виджетах читайте в разделе Дашборды мониторинга.
Рекомендации
Настройка порогов
- Установите пороги загрузки CPU и RAM на уровне 85-90% для своевременного выявления проблем
- Для критически важных серверов можно установить более низкие пороги (70-80%)
- Используйте параметр «Количество превышений подряд» чтобы избежать ложных срабатываний при кратковременных всплесках нагрузки
- Для разных типов дисков (системные, data, backup) устанавливайте индивидуальные пороги заполнения
Организация мониторинга
- Используйте иерархическое наследование параметров — установите общие настройки на уровне папок
- Для узлов с особыми требованиями переопределите параметры индивидуально
- Регулярно проверяйте дашборд мониторинга для выявления узлов с высокой нагрузкой
- Следите за узлами с устаревшими версиями агентов и своевременно их обновляйте
Анализ данных
- Используйте графики за длительные периоды (неделя, месяц) для выявления трендов и планирования модернизации
- Обращайте внимание на регулярные пики нагрузки — они могут указывать на плановые задачи, которые можно оптимизировать
- Высокое время отклика дисков может указывать на необходимость дефрагментации или замены оборудования
- Следите за ростом сетевого трафика — он может указывать на изменение паттернов использования системы
Автоматизация реагирования
- Включайте автоматическое создание тикетов для критически важных узлов
- Используйте автоматическое закрытие тикетов чтобы сократить количество ложных инцидентов
- Настройте правила SLA для тикетов мониторинга с учетом критичности узлов
- Для тестовых и dev-окружений можно отключить создание тикетов
Производительность системы
- Регулярно просматривайте разделы дашборда с производительностью дисков — высокие IOPS или время отклика могут быть признаками узких мест
- Если скорость чтения/записи постоянно близка к максимальной пропускной способности, рассмотрите возможность масштабирования дисковой подсистемы
- Используйте графики сетевой активности для планирования пропускной способности каналов связи
Мониторинг системных ресурсов — это инструмент для проактивного управления инфраструктурой. Регулярный анализ данных мониторинга позволяет предотвращать проблемы до того, как они повлияют на работу пользователей.