Naumen Business Service Monitoring
Комплексное решение для цифрового мониторинга
и управления ИТ-ландшафтом предприятия


Искусственный интеллект для мониторинга ИТ-инфраструктуры: с какими задачами модель справится сегодня

В этой статье рассмотрим, как использовать модели искусственного интеллекта в мониторинге ИТ-инфраструктуры. А также разберем, какие задачи можно будет передать ИИ в ближайшем будущем.

Предотвращение сбоев в  работе оборудования

Такую возможность дают модели машинного обучения (ML-модель). С этой целью они уже успешно применяются в системах мониторинга. Избежать аварий можно с помощью двух сценариев. Оба дают ИТ-специалистам фору для превентивных мер.

Прогнозирование значений метрик. ML-модели анализируют собранные значения за определенный период и делают прогноз на заданный срок. При этом они учитывают и такие факторы, как тренды и сезонность. Чем меньше горизонт прогнозирования — тем точнее расчеты.

Для прогнозируемых значений в системе мониторинга действуют все те же возможности, что и для собираемых в текущий период. В частности для них аналогично настраиваются механизмы реагирования. Допустим, модель спрогнозировала, что через 1 час метрика достигнет порогового значения. Это повлечет срабатывание триггера, и система отправит уведомление специалистам, которые отвечают за данное оборудование.

ИИ-модель в Naumen BSM

Модель в системе мониторинга Naumen BSM обновляет прогноз метрик с заданной периодичностью на основании постоянно обновляемых значений метрик

Обнаружение аномальных значений метрик. Значения постоянно меняются, и это нормально. Тем не менее колебаться они могут только в определенных рамках. Выход за них означает возможный сбой. ML-модели, опять же на основе анализа исторических данных, умеют определять границы нормы и фиксировать значения, которые за них  выходят.

В этом случае система не бьет тревогу сразу, а берет метрику под контроль. Если ее значение возвращается к нормальным показателям, например, такое возможно, если оборудование было перегружено на короткий промежуток времени, то отклонение считается случайным. Если нет, и метрика продолжает демонстрировать аномальные значения, система оповещает об этом ответственных и создает инцидент.

Этот сценарий также дает ИТ-подразделению возможность предотвратить сбой, недоступность сервиса, а значит, простой какого-либо бизнес-процесса. Кроме того, у него еще  один значительный плюс. Он снимает с операторов мониторинга нагрузку по отслеживанию единичных аномальных показателей, которые никак не влияют на работу оборудования.

ИИ-модель в Naumen BSM

ИИ-модель в Naumen BSM учитывает, что аномалия может носить случайный характер, поэтому сообщает о ней только убедившись, что она действительно важна

Таковы на данный момент реальные и проверенные возможности ИИ, которые уже применяются для мониторинга ИТ-инфраструктуры. Перейдем к тем, которые будут доступны в перспективе.

Выявление неоптимального распределения ресурсов

Если предоставить ИИ-алгоритму данные об использовании ИТ-мощностей, он сможет проанализировать их и сделать выводы об эффективности текущего распределения нагрузки. В частности обнаружить перегруз одного оборудования, невостребованный резерв мощности другого и т. д. Это позволит более оптимального перераспределить ресурсы объектов ИТ-инфраструктуры. ИИ даже сможет рекомендовать, как  именно.

Таким образом загрузка ИТ-ландшафта будет отслеживаться автоматически. Специалистам нужно будет подключиться только на стадии реализации изменений. Своевременные корректировки распределения ИТ-ресурсов помогут снизить число технических сбоев и избежать преждевременного износа оборудования.

Искусственный интеллект для мониторинга ИТ-инфраструктуры

Планирование ИТ-мощностей

При наличии исторических и актуальных данных об использовании ИТ-ресурсов в компании, ИИ-модель сможет рассчитывать, сколько их потребуется для новых задач бизнеса. Более того, некоторые модели способны спрогнозировать не только количество оборудования и требования к нему, но и персонал, необходимый для работы с ним. А после запуска новых участков ИТ-инфраструктуры ИИ на основе данных мониторинга сможет проанализировать, насколько эффективно используются новые ресурсы.

Так как модель оперирует данными конкретной инфраструктуры, то автоматически учитывает именно ее особенности. Поэтому рассчитает необходимые ресурсы, именно для данной компании. Применение такого алгоритма позволит не только быстрее планировать и реализовывать запуск новых мощностей, но и точнее бюджетировать затраты на это.

Выяснение причин инцидентов

Ресурсно-сервисная модель (РСМ) в составе системы мониторинга помогает находить причины аварий. Но иногда ее недостаточно.

РСМ — это  схема, которая отражает связи между сервисами, услугами и объектами ИТ-инфраструктуры, которые их обеспечивают. Таким образом по пострадавшему сервису понятно, на каком объекте ИТ-ландшафта произошел сбой.

Тем не менее в инфраструктуре много непрямых и неочевидных связей, которые сложно отследить по ресурсно-сервисной модели. Это  затрудняет поиск объекта, который стал первопричиной сбоя. Зато это  сможет сделать ИИ-модель, обученная для таких задач. И что  важно — сделает это  быстро. Таким образом можно существенно уменьшить время недоступности сервисов и простоя бизнес-процессов.

Автоматическая работа с триггерами

Триггеры — это  настроенные в системе мониторинга значения метрик, при которых автоматически запускаются определенные сценарии: отправляются оповещения ответственным, формируется инцидент и т. д. Триггеры не задаются один раз и навсегда. Необходимо следить за актуальностью этих значений, чтобы они  отвечали текущему состоянию инфраструктуры. Поэтому когда в ней что-то меняется: оборудование выводится, добавляется новое, усиливается нагрузка и др., триггеры необходимо пересматривать. Это  отдельная трудоемкая часть работы при  поддержании ИТ-ландшафта.

Но скоро интеллектуальные системы смогут взять ее на себя. Для  этого им понадобится история значения метрик, триггеров и информация о составе инфраструктуры. Сопоставление всех этих данных позволит ИИ-алгоритму отслеживать актуальность заданных триггеров и даже формировать рекомендации по их изменению. Более того, если  при анализе данных он выявит связи между какой-либо метриков и сбоем, то сможет даже предложить триггер, которого в данный момент нет. Следующий шаг в этом процессе — разрешить ИИ самостоятельно перенастраивать триггеры.

К выводам

Главная возможность ИИ-моделей — анализирование больших объемов данных с высокой скоростью. Использовать эту  способность можно с разными целями и под них обучать алгоритмы. Сейчас это  активно практикуется в системах мониторинга для  работы с массивом информации по метрикам. ИИ научился прогнозировать их значения и выявлять аномальные показатели.

В ближайшем будущем модели смогут обрабатывать данные по составу и загрузке инфраструктуры и сопоставлять их с метриками. И это  откроет новые возможности по предотвращению сбоев, недоступность сервисов, простою бизнес-процессов, а также позволит существенно экономить ресурсы квалифицированных специалистов.

Что еще интересного

Обзор 3 уровней мониторинга инфраструктуры
#как_работает

Что такое автоинвентаризация, управление событиями и анализ метрик.

ИИ-аналитика в корневом мониторинге
#как_работает

Ускоряем диагностику сбоя и прогнозируем события в инфраструктуре.

Планировщики задач мониторинга: кейсы применения
#как_работает

Как упростить сбор данных из внешних систем и быстро чистить базу данных событий и аварий.