В фокусе:
Координационный центр Правительства РФ
ЗАКАЗЧИК
Координационный центр Правительства РФ
КРАТКО
Внедрение поисковой ИТ-системы Naumen Enterprise Search, основанной на когнитивном 
анализе данных

Заказчик

Координационный центр Правительства Российской Федерации — постоянно действующий орган при Правительстве Российской Федерации, образованный для оперативных и согласованных действий федеральных органов исполнительной власти, органов исполнительной власти субъектов Российской Федерации и организаций при разрешении инцидентов (штатных и нештатных ситуаций), проработки приоритетных задач Правительства Российской Федерации и выполнения выделенных проектов.

Предпосылки

Регулярные задачи сотрудников – сбор и анализ больших разноструктурированных наборов данных, быстрая подготовка аналитики для принятия своевременных управленческих решений.

Решение таких задач осложняется тем, что:

  • Информация распределена по разным ИТ-системам
  • Информация хранится в разных форматах: файлы, базы данных, аналитическим представлениям в виде дашбордов BI
  • Различных архивов
  • Набор данных постоянно увеличивается, меняются и добавляются форматы представления данных и аналитика

Почему выбрали NAUMEN

  • Продукт входит в Реестр отечественного ПО
  • Гибкий подход к разработке
  • Кейсы внедрения больше, чем у других вендоров
  • Платформа приспособлена к быстрому внедрению

Цели проекта

Предоставить сотрудникам понятный и удобный инструмент поиска 
по всем накопленным данным.

Система должна позволять осуществлять когнитивный поиск с учетом специфики предметной области.

Обеспечить непрерывное пополнение индекса новыми данными 
и актуализировать индекс по изменившимся данным.

задачи проекта

1Получение данных

Система обращается в системы-источники, получает данные и файлы и сохраняет их во временном хранилище. Были разработаны механизмы получения данных из REST API, БД PostgreSQL, чтение данных из веб-страниц системы BI

2 Подготовка данных

  • Преданализ. Анализ типа файла (формат файла, расширение, архив и т. д.) для выбора подхода к обработке
  • Извлечение контента. Разархивация, извлечение текстового слоя (OCR), превращение в извлеченный текстовый формат
  • Обогащение. Извлечение метаданных файла, вычисление дополнительных параметров из пути

3 Индексирование данных

  • Векторизация. Построение семантического вектора для каждого документа

  • Токенизация. Морфологический и синтаксический разбор текстового образа документа. Выделение токенов из текста и нормализация
  • Семантический поиск. Расчет семантических векторов для эффективного расчета смысловых пересеченийна коллекциях из миллионов документов
  • Индексация. На основе обогащённого текстового образа документов в строится полнотекстовый индекс для поиска и фильтрации документов.

4 Настройка сервисов

  • Настройка концептов. Загрузка концептов с общеупотребимой лексикой. Загрузка специфичных терминови синонимов. Есть интерфейс для развития базы терминов и синонимов

  • Каталогизация. На основе набора правил по регулярному расписанию поисковый робот обходит корпус документов и распределяет документы по структуре каталога

Результаты проекта

Возможности для пользователей

Система обращается в системы-источники, получает данные и файлы и сохраняет их во временном хранилище. Были разработаны механизмы получения данных из REST API, БД PostgreSQL, чтение данных из веб-страниц системы BI

  • Единая точка интеллектуального поиска на 100 000 документов по внутренним системам
  • Отображение связей документов и людей по проекту, инциденту, проблеме и т. д.
  • Анализ семантической близости для поиска близких по тематике документов в разных системах
  • Специальные возможности поиска: поиск документов по схожей тематике и возможность поиска по незнакомой предметной области (каталог данных, теги, расширенный поиск по концептам)
  • Специальные возможности поиска: поиск документов по схожей тематике и возможность поиска по незнакомой предметной области (каталог данных, теги, расширенный поиск по концептам)

Механизмы настройки параметров системы:

  • Пополнение базы синонимов и концептов
  • Развитие каталога данных

Эффекты

Повышение качества и скорости для решения возникающих проблем, инцидентов и задач

Уменьшение затрачиваемого сотрудниками времени на поиск решения задачи за счет внедрения единого инструмента поиска

Более эффективное использование накопленных знаний

преимущества решения

Решение поддерживает большинство современных форматов файлов

Не нагружает и не замедляет работу существующих корпоративных систем

В решении используются современные технологии анализа данных и обработки языка: дистрибутивная семантика, алгоритмы кластеризации данных и алгоритмы машинного обучения

В основе решения лежат Open Source технологии и библиотеки

Разработка является полностью российской

Приоритетной целью для КЦ было ускорение обработки входящих поручений Правительства РФ, и Система Корпоративного поиска позволила намного быстрее и качественнее отрабатывать поручения по всем темам запросов. А также предоставила простой и удобный интерфейс для сотрудников КЦ. Помимо прочего использованные технологии корпоративном поиске от NAUMEN легко встроились в наш ИТ-ландшафт

Гололобов Алексей
Заместитель руководителя ситуационного центра