Интеллектуальный
поиск
Быстрый и точный поиск
в корпоративных цифровых хранилищах
и открытых источниках

Интеллектуальная поисковая система
на основе технологий AI и обработки больших данных

Система интеллектуального поиска NAUMEN снижает затраты на ежедневный поиск информации в разнородных источниках и предлагает бизнес-пользователям точные и развернутые ответы на сложные вопросы, связанные с производственными процессами, оказанием услуг и прикладными исследованиями. Умная система поиска с применением машинного обучения и технологий обработки естественного языка (Natural Language Processing) способна обрабатывать большие массивы информации и делать накопленные знания доступными для сотрудников компании.

Какие задачи вы сможете решить

  1. Объединить все источники информации в единую поисковую среду
    С помощью нашего решения вы сможете с одинаковым удобством вести поиск в десятках источников данных, подключенных к поисковой системе — это могут быть сетевые папки с файлами, корпоративные системы и порталы, электронные библиотеки и т.д.
  2. Получать из поиска качественные ответы для анализа и принятия решений
    Поисковая система поможет быстро найти нужную информацию в большом количестве неструктурированных данных из различных источников и предоставит ответ, сфокусированный на потребности пользователя.
  3. Расширить возможности
    управления знаниями

    Вы сможете расширить возможности управления знаниями в компании, подключив к поисковой системе базы знаний и другие источники, где содержится важная для бизнеса информация. Также сотрудники смогут вовремя узнавать о появлении новых материалов по интересующим тематикам.

Единая поисковая строка — для любых вопросов

Независимо от того, где находится интересующая информация, пользователь получает удобный доступ к ней с помощью универсального поискового интерфейса: строки ввода запроса, страниц вывода результатов поиска и фильтров. На этапе развертывания системы внутренние источники данных подключаются к поисковой системе с помощью коннекторов. Информация из внешних источников собирается с помощью поискового робота (веб-краулера).

Интеллектуальный поиск Naumen

Поиск в файлах различных форматов

Полнотекстовый поиск ведется в содержании файлов, относящихся к форматам приложений Microsoft (doc, docx, xls, xlsx, ppt, pptx и др.), веб-страницам (html, htm), открытым форматам текстовых документов (odt), а также к текстовым документам, представленным в виде графических форматов (pdf, djvu, jpeg и др.).

Все поддерживаемые форматы

Умный поиск, понимающий смысл документов
и задачи пользователя

Интеллектуальная система NAUMEN понимает смысл информации в документах и формирует для пользователя расширенный поисковый ответ, максимально релевантный задаче пользователя. Система способна также понимать сокращения и специализированные термины, используемые сотрудниками в компании и в отрасли в целом. Кроме того, технологии машинного обучения позволяют постоянно улучшать качество понимания смысла документов системой поиска.

Naumen Интеллектуальный поиск
Семантический поиск

Семантический поиск

Поисковая система использует расширенные сведения о документах, полученные с помощью технологий семантического анализа. На этапе семантической обработки определяются признаки, передающие краткую суть документов, что позволяет группировать документы по смыслу, выделять ключевые слова, назначать тэги и др. Поисковые алгоритмы, учитывающие эти сведения, значительно повышают качество поисковых ответов даже в ситуации, когда документ, где есть ответ на вопрос пользователя, не содержит слов из исходного запроса (нечеткий поиск).

Персонализация

Персонализация

При формировании поискового ответа система учитывает особенности пользовательского профиля, интересы пользователя, историю его запросов, а также уникальные параметры, формируемые системой на основании анализа документов пользователя.

Самообучающийся поиск

Самообучающийся поиск

Машинное обучение поддерживает точность и качество поиска в условиях постоянного увеличения числа документов, подключения новых источников, выхода новых версий и других изменений, связанных с правилами хранения и обработки информации в компании.

Все возможности современных поисковых систем —
в одном решении

  1. Полнотекстовый поиск по содержанию и атрибутам
    При формировании результатов обработки запроса поиск ключевых слов ведется в содержании документа, а также в значениях атрибутов (полей) учетной карточки документа.
  2. Поиск с учетом морфологии и по точному соответствию
    Морфологический поиск позволяет найти ключевое слово в документах не только в строго заданном виде, но и во всех его морфологических формах (с учетом рода, числа и склонения по падежам).
  3. Поиск с фасетными
    фильтрами

    Пользователи могут управлять размером выборки документов в результатах поиска с помощью группы из нескольких фильтров (фасетов, facets), которые представляют различные характеристики (тип документа, автор, дата создания и др.).
  4. Поиск с учетом
    словарей синонимов

    Поиск может проводиться с использованием словарей синонимов, а также данных о семантической близости слов, полученных с помощью методов дистрибутивной семантики.
  5. Контекстный
    поиск

    Контекстный поиск позволяет найти документы, содержащие ключевые слова, если они расположены не далее указанного расстояния друг от друга.
  6. Единый
    каталог документов

    С помощью технологий каталогизации и категоризации система позволяет создать единый каталог документов из всех источников с понятной всем сотрудникам структурой и удобной навигацией.

Хотите больше узнать о возможностях поиска?

Расскажите нам о ваших потребностях и задачах в области поиска, и мы постараемся предложить решение.

Из опыта крупных проектов

Создание системы когнитивного поиска
для Научно-Технического Центра «Газпром нефти»

100+
Пользователей на этапе пилотного проекта
20+
Источников данных
100 000+
Электронных документов, доступных в поиске

Если раньше поисковые запросы выдавали избыточную информацию, то когнитивный поиск позволяет задать запрос с уточнением и получить сфокусированные ответы, делать фильтры по определенным направлениям

Борис Белозеров
начальник департамента цифровых технологий и геологической экспертизы НТЦ «Газпром нефти»

Премия конкурса «Проект Года 2018»
cообщества ИТ-директоров России Global CIO в специальной номинации «Выбор Global CIO»

Премия конкурса «Лучшие 10 ИТ-проектов для нефтегазовой отрасли»
в номинации «Корпоративная информационная система»

Из каких этапов состоит внедрение
в компании системы интеллектуального поиска

Внедрение на предприятии системы интеллектуального поиска — это полноценный проект, в котором со стороны компании NAUMEN участвует команда специалистов. Как правило, в проекте существует несколько основных этапов в зависимости от характера решаемых задач.

  • 1. Анализ источников, типов и форматов данных

    На первом этапе проводится изучение всех источников данных, типов документов и форматов их хранения, содержания и атрибутов. Этот этап является особенно трудоемким, поскольку необходимо выявить максимальное количество деталей и особенностей организации данных, чтобы свести к минимуму риск неоправданно затратных изменений в алгоритмах извлечения и сохранения данных в будущем.

  • 2. Интеграция источников и преобработка данных

    На этом этапе проводятся работы по интеграции источников и созданию единого информационного пространства для поиска. Для этого специалисты разрабатывают модель данных, на базе которой затем происходит взаимодействие с источниками, и создают хранилище для некоторых категорий данных. Загруженные в хранилище данные проходят предварительную обработку: улучшается качество сканов документов, решается проблема с кодировками, мусорными символами и т. д.

  • 3. Построение языковой модели

    На основе извлеченных из документов текстовых данных строится языковая модель, учитывающая специфику и нормы употребления слов в различных видах документов — технических, научных и др. Наличие языковой модели в дальнейшем позволяет поисковой системе понимать смысл информации, представленной в документе.

  • 4. Семантический анализ и структурирование коллекции документов

    После этапа машинного обучения система с помощью языковой модели может рассчитывать специальные признаки документов, передающие краткую суть документов, их смысл. В итоге формируется семантическое пространство — основа для дальнейшего анализа и интеллектуализации системы, включая задачи структурирования коллекции документов: группировка документов по смыслу, выделение ключевых слов, присвоения тегов.

  • 5. Настройка алгоритмов поиска и ранжирования

    На последнем этапе происходит настройка алгоритмов поиска и ранжирования. Модель ранжирования документов в поисковой выдаче может корректироваться с учетом множества параметров, обеспечивающих высокую степень релевантности выдачи: актуальность документа, различные приоритеты для контента и атрибутов документа, особенности лексики запроса и т. д. Проводится настройка фильтров и тезаурусов предметной области, расширяющих поисковую выдачу за счет включения в нее близких по смыслу документов.

Технологическая платформа

Основные компоненты интеллектуальной поисковой системы NAUMEN разработаны на языке программирования Scala, в качестве СУБД используются реляционная PostgreSQL (индексы) и нереляционная MongoDB (хранение контента). В системе также применяются продукты с открытым исходным кодом - поисковая машина Elasticsearch и фреймворк Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных.

Обсудите с нами ваши задачи

Хотите обсудить возможности использования интеллектуального поиска в вашей компании или заказать демонстрацию поисковой системы?

Сообщите нам ваши контактные данные, и мы ответим как можно быстрее.