Заказчик
Координационный центр Правительства Российской Федерации — постоянно действующий орган при Правительстве Российской Федерации, образованный для оперативных и согласованных действий федеральных органов исполнительной власти, органов исполнительной власти субъектов Российской Федерации и организаций при разрешении инцидентов (штатных и нештатных ситуаций), проработки приоритетных задач Правительства Российской Федерации и выполнения выделенных проектов.
Предпосылки
Регулярные задачи сотрудников – сбор и анализ больших разноструктурированных наборов данных, быстрая подготовка аналитики для принятия своевременных управленческих решений.
Решение таких задач осложняется тем, что:
- Информация распределена по разным ИТ-системам
- Информация хранится в разных форматах: файлы, базы данных, аналитическим представлениям в виде дашбордов BI
- Различных архивов
- Набор данных постоянно увеличивается, меняются и добавляются форматы представления данных и аналитика
Почему выбрали NAUMEN
- Продукт входит в Реестр отечественного ПО
- Гибкий подход к разработке
- Кейсы внедрения больше, чем у других вендоров
- Платформа приспособлена к быстрому внедрению
Цели проекта
Предоставить сотрудникам понятный и удобный инструмент поиска по всем накопленным данным.
Система должна позволять осуществлять когнитивный поиск с учетом специфики предметной области.
Обеспечить непрерывное пополнение индекса новыми данными и актуализировать индекс по изменившимся данным.
задачи проекта
1Получение данных
Система обращается в
2 Подготовка данных
- Преданализ. Анализ типа файла (формат файла, расширение, архив
и т. д. ) для выбора подхода к обработке - Извлечение контента. Разархивация, извлечение текстового слоя (OCR), превращение в извлеченный текстовый формат
- Обогащение. Извлечение метаданных файла, вычисление дополнительных параметров из пути
3 Индексирование данных
Векторизация. Построение семантического вектора для каждого документа
- Токенизация. Морфологический и синтаксический разбор текстового образа документа. Выделение токенов из текста и нормализация
- Семантический поиск. Расчет семантических векторов для эффективного расчета смысловых пересеченийна коллекциях из миллионов документов
- Индексация. На основе обогащённого текстового образа документов в строится полнотекстовый индекс для поиска и фильтрации документов.
4 Настройка сервисов
Настройка концептов. Загрузка концептов с общеупотребимой лексикой. Загрузка специфичных терминови синонимов. Есть интерфейс для развития базы терминов и синонимов
- Каталогизация. На основе набора правил по регулярному расписанию поисковый робот обходит корпус документов и распределяет документы по структуре каталога
Результаты проекта
Возможности для пользователей
Система обращается в
- Единая точка интеллектуального поиска на 100 000 документов по внутренним системам
- Отображение связей документов и людей по проекту, инциденту, проблеме
и т. д. - Анализ семантической близости для поиска близких по тематике документов в разных системах
- Специальные возможности поиска: поиск документов по схожей тематике и возможность поиска по незнакомой предметной области (каталог данных, теги, расширенный поиск по концептам)
- Специальные возможности поиска: поиск документов по схожей тематике и возможность поиска по незнакомой предметной области (каталог данных, теги, расширенный поиск по концептам)
Механизмы настройки параметров системы:
- Пополнение базы синонимов и концептов
- Развитие каталога данных
Эффекты
Повышение качества и скорости для решения возникающих проблем, инцидентов и задач
Уменьшение затрачиваемого сотрудниками времени на поиск решения задачи за счет внедрения единого инструмента поиска
Более эффективное использование накопленных знаний
преимущества решения
Решение поддерживает большинство современных форматов файлов
Не нагружает и не замедляет работу существующих корпоративных систем
В решении используются современные технологии анализа данных и обработки языка: дистрибутивная семантика, алгоритмы кластеризации данных и алгоритмы машинного обучения
В основе решения лежат Open Source технологии и библиотеки
Разработка является полностью российской
Приоритетной целью для КЦ было ускорение обработки входящих поручений Правительства РФ, и Система Корпоративного поиска позволила намного быстрее и качественнее отрабатывать поручения по всем темам запросов. А также предоставила простой и удобный интерфейс для сотрудников КЦ. Помимо прочего использованные технологии корпоративном поиске от NAUMEN легко встроились в наш ИТ-ландшафт