и управления ИТ-ландшафтом предприятия
Как эффективно мониторить работу центров обработки данных
В статье разберем, как организовать мониторинг ЦОД с помощью системы сбора данных: какое оборудование нужно контролировать в первую очередь и какие инструменты автоматизации для этого использовать.
Определение мониторинга ЦОД и его цели
Центр обработки данных (ЦОД) — сложный технологический комплекс. В него входит оборудование различного типа:
- серверное — информационные системы для хранения и обработки данных;
- сетевое — инфраструктурные системы для передачи и обмена данными;
- инженерное — системы видеонаблюдения и
климат-контроля , кондиционеры.
На работу серверов влияют физические параметры. Например, сервер может выйти из строя
Мониторинг ЦОД заключается в постоянном и комплексном контроле оборудования разных типов, а также физических характеристик помещения.
Основная цель — предотвратить сбои и поломки устройств на информационном и физическом уровнях, а также обеспечить безопасность данных. Рассмотрим цели и задачи мониторинга подробнее.
Контроль серверного и сетевого оборудования. С помощью набора метрик отслеживается производительность оборудования, которое является основой
Контроль микроклимата. С помощью датчиков контролируется температура и влажность воздуха в помещении, а также работоспособность кондиционеров. Эта задача не менее важная, чем, например, отслеживание нагруженности процессора.
Контроль систем безопасности. На серверах может храниться закрытая корпоративная информация и базы данных компаний. Эти данные нужно защищать не только от внешних угроз. Для контроля доступа в помещение используются системы видеонаблюдения, датчики движения, датчики контроля открытия дверей

С помощью дашбордов в Naumen Network Manager можно оценить производительность оборудования
Организация ЦОД
Эффективность мониторинга зависит от того, насколько правильно спроектирован ЦОД и какие процессы запускаются при обнаружении сбоя. Ошибки в проекте и регламентах могут привести к тому, что температурный датчик будет находиться слишком далеко от сервера и не сможет вовремя зафиксировать перегрев. Или сотрудники не знают о сбоях, потому что не настроены механизмы автоматического оповещения.
Проектирование. Нужно определить, где и какие именно датчики разместить, где установить системы охлаждения и видеокамеры. Также желательно заранее внедрить и протестировать системы мониторинга.
Разработка регламентов. Необходимо создать правила обработки инцидентов, связанных с отключением оборудования и нарушением правил безопасности. Например, в соответствии с этими правилами в системе зонтичного мониторинга можно настраивать механизмы реагирования — процессы, которые автоматически будут запускаться в системе, когда сработает тот или иной триггер.
Принципы мониторинга ЦОД
Эффективность мониторинга зависит от того, по каким принципам он организован. Рассмотрим ключевые.
Непрерывность. Значения метрик и показатели оборудования нужно постоянно собирать и анализировать. Это позволяет вовремя заметить отклонения в работе, а также отследить состояние устройств.
Полнота. Нужно собирать метрики различного оборудования и датчиков. Данные позволят определить, работает оборудование или нет, каково состояние здоровья отдельных устройств и систем, какие ошибки возникают.
Централизация. Чтобы получить достоверную картину происходящего, нужно учитывать различные факторы. Некоторые системы позволяют установить взаимосвязи между устройствами, оценивать их влияние друг на друга и видеть полную картину происходящего. Это помогает быстрее обнаруживать коренные причины сбоев.
Визуализация. Отслеживать состояние оборудования и показатели удобнее с помощью дашбордов, схем и

Инфопанели в Naumen BSM помогают получать статистические данные о событиях и динамике в разрезе оборудования и услуг
Методы сбора данных для мониторинга ЦОД
Для контроля ЦОД на виртуальном и физическом уровнях используются различные методы и инструменты. Они отличаются в зависимости от этапа сбора данных, типа оборудования и специфики контролируемых показателей.
Сбор данных с датчиков, которые могут контролировать работоспособность кондиционеров, пожарной сигнализации, систем слежения и других устройств.
Сбор данных с оборудования можно обеспечить с помощью систем корневого мониторинга.
Набор метрик настраивается в зависимости от потребностей организации. Например, можно контролировать производительность, память, загруженность процессора или количество задач в очереди. При достижении пороговых значений срабатывают триггеры и ответственные специалисты получают уведомления о сбое, когда он произошел.
Консолидация данных в зонтичном мониторинге.
Зонтичный мониторинг может обнаруживать даже незначительные отклонения в работе устройств и прогнозировать вероятные сбои до того, как производительность систем начнет снижаться. Это дает возможность
Использование исторических данных позволяет сохранять всю информацию, чтобы иметь возможность восстановить картину происходящего в различное время, отслеживать динамику изменения показателей. Кроме того, некоторые системы мониторинга анализируют статистику и автоматически определяют допустимые значения метрик. Также данные могут использоваться для прогнозирования работы оборудования с помощью предиктивных моделей.

Предиктивные модели в Naumen BSM прогнозируют, как будут меняться ключевые показатели оборудования
Анализ собранных данных и принятие решений на основе результатов
Мониторинг ЦОД нужен не только для контроля работоспособности оборудования. В системах агрегируются достоверные данные, на которые можно опираться при управлении ресурсами и мощностями, оценке их достаточности. На основе анализа данных можно принимать решения, связанные:
- с устранением проблем;
- масштабированием систем;
- обновлением оборудования;
- проведением ремонтов и профилактического обслуживания.
Так, при введении новой услуги нужно оценить текущую загруженность серверов. Если выяснится, что ресурсов не хватит для поддержки услуги, руководство может принять решение об увеличении мощностей. Это также даст возможность проанализировать потребность в размещении нового сервера. Принимается во внимание не только наличие свободных мест в стойке, но и возможности систем охлаждения, сетевого оборудования.
Во время проведения ремонтных работ стоит учитывать взаимосвязь сервера и предоставляемых на его базе услуг. Так, если услуга должна быть всегда доступна, специалисты
Что еще интересного
Как организовать техучет и мониторинг инфраструктуры с помощью экосистемы решений Naumen
По каким признакам оценить, что пора внедрять комплексный мониторинг в
Как работает система Naumen BSM для оценки работоспособности объектов