Алертинг и оповещения о событиях в ИТ-инфраструктуре с помощью Naumen Network Manager
К основной функциональности инфраструктурного мониторинга относится не только сбор метрик с объектов, но и отслеживание, насколько значения соответствуют нормам. А если не соответствуют, то нужна быстрая система уведомлений для
Что такое «норма» в событиях инфраструктурного мониторинга
Naumen Network Manager (NNM), обращаясь к элементам инфраструктуры, постоянно фиксирует события — это все, о чем свидетельствуют снятые значения, например, любые изменения состояния устройств.
События могут быть в пределах нормальных показателей, значит, с объектом все в порядке. Или выходить за них — тогда событие классифицируется как авария. В этом случае мониторингу необходимо уведомить
Чтобы распознать аварию, системе нужно знать нормальные значения. Это позволит сопоставлять полученные показатели. В NNM по умолчанию настраиваются стандартные нормы метрик для разных типов оборудования. Продуктовая команда постоянно работает над пополнением каталога оборудования и его характеристик, чтобы мониторинг знал объекты, с которыми взаимодействует. Также в системе для аварий задаются признаки критичности. Всего уровней критичности пять: предупреждение, внимание, повреждение, авария, недоступен. Каждому соответствует свой цвет.
Если у компании есть необходимость задать свои нормы для метрик, отличных от типовых, или скорректировать уровни критичности, это можно сделать дополнительно. Таким образом NNM знает нормативные и предельные значения, допустимые диапазоны показателей для устройств, с которыми взаимодействует.
Какие уведомления о событиях инфраструктуры реализованы в системе
Пользователи Naumen Network Manager — это операторы мониторинга и специалисты, ответственные за различные объекты инфраструктуры. Операторы следят за функционированием системы, отслеживают аварии, регулярно проверяют полученные метрики. Для них более подходит способ уведомления через
Список аварий. На отдельной вкладке NNM фиксируются все события, которые мониторинг классифицировал как аварийные. Это таблица с множеством данных: идентификация самой аварии, критичность, время, компонент и другие. Список интерактивен: с каждой аварии можно перейти на карточку и получить имеющиеся сведения. Контекстное меню позволяет перейти к устройству, затронутому аварией, взять в работу, оставить комментарий или при необходимости скорректировать правило, в соответствии с которым она классифицирована.
Отображение таблицы настраивается, и это очень удобно при многопользовательском режиме работы. Система фильтров позволяет показывать только те сведения, которые необходимы конкретному пользователю. А весь остальной массив информации не будет мешать.

Из интерфейса доступен переход в каждую карточку аварии. Это удобно, чтобы сразу узнать детали ситуации.
Виджет «Топология». Здесь инфраструктура отображается в виде схемы, на которую нанесены объекты. Каждый обозначен иконкой. Если устройство работает нормально, то иконка зеленая. Если нет, иконка становится того цвета, который соответствует уровню критичности аварии.
Также виджет отражает группировку объектов по

Цветовое кодирование иконок в контейнере упрощает понимание, какое состояние у объекта.
Виджет «ГИС». Элементы инфраструктуры здесь показаны не только в контексте связей друг с другом, но и привязаны к геолокации в соответствии со своими координатами: широтой и долготой. Как и на «Топологии», каждое устройство сопровождается иконкой, которая отражает состояние. Если уменьшать масштаб карты до размера, на котором показать все объекты этой локации станет невозможно, информация о них сгруппируется. Цветовая индикация на ней передаст данные о том, сколько устройств и в каком состоянии там находится.

Интерактивный виджет «ГИС» выводит показатели объектов с учетом локации на карте

Вывод
Внешние уведомления: через e-mail , SMS, Телеграм
Эти способы оповещения удобны тем, что позволяют сообщить об авариях пользователям, которые не находятся в системе мониторинга постоянно. И тем не менее могут получить информацию моментально.
Такие уведомления можно гибко настраивать по типу аварий, критичности, оборудованию, адресатам и другим параметрам. Naumen Network Manager содержит шаблон текста для этих сообщений, но у пользователей есть возможность отредактировать.

Триггеры по алертам с помощью отправки сообщений по почте, SMS или в мессенджер удобнее, если специалист находится вне рабочего места
Автоматическая цепочка уведомлений
Более точная настройка алертинга достигается путем интеграции между всеми решениями инфраструктурного мониторинга Naumen, которые умеют обмениваться нужной информацией.
Так, Naumen Network Monitoring отвечает за актуальные данные о состоянии объектов инфраструктуры. Он собирает их и передает в систему зонтичного мониторинга Naumen Business Service Monitoring (BSM).
BSM содержит
NSD на основе полученной из BSM информации регистрирует инцидент и автоматически маршрутизирует на нужного ответственного, который начинает по нему работу. Таким образом из цепочки исключен человеческий фактор и любые задержки в передаче данных.

Интеграция решений Naumen упрощает автоматизацию процессов обнаружения, оповещения и обработки инцидентов.
Как работают цепочки уведомлений
Naumen Network Manager позволяет не ограничиваться разовыми уведомлениями, а умеет выстраивать из них последовательные цепочки. Для этого он содержит графический редактор, в котором задается логика и правила оповещения для различных аварий.
Например, на событие настроены уведомления адресату в Telegram. Если спустя полчаса в системе не появилась отметка о том, что оно «Принято в работу», уведомление отправляется снова — уже в SMS, и например, дублируется еще одному специалисту. Таких звеньев в цепочке может быть несколько, и они могут в обозначенных случаях запускать автоматические действия, например, скрипт или перезагрузку оборудования.

Цепочка правил гибко настраивается в графическом редакторе под нужные процессы мониторинга.
В итоге
Система уведомлений в Naumen Network Manager позволяет настраивать различные варианты алертов об авариях на объектах
Что еще интересного
Какие задачи корневого мониторинга решает продукт Naumen: разбор ключевой функциональности
Что такое коннекторы и для чего они нужны: разбираем на примере интеграции с Prometheus
Как системы инфраструктурного мониторинга помогают бизнесу управлять сложной инфраструктурой централизованно