Neftegaz.ru, № 2/2019 г.: Интеллектуальный поиск как инструмент развития научно-технического потенциала компаний нефтегазовой отрасли
Предприятия нефтегазовой отрасли традиционно занимают лидирующие позиции в вопросах использования инноваций. Высокая степень конкуренции, сложные технологические процессы, капиталоемкость разведки и разработки месторождений — все эти факторы создают потребность в
Потребность в применении интеллектуального поиска определяют два ключевых фактора — растущий объем неструктурированной информации, хранимой и передаваемой в виде различного вида документов и файлов, а также ограниченные способности человека в быстром извлечении из этих массивов данных качественных ответов на вопросы, связанные с решением инженерных задач, научными исследованиями
Объем неструктурированных данных в компаниях сегодня измеряется тера- и петабайтами: они включают в себя разные виды технологической, проектной и
Как показывает свежее исследование агентства IDC*, сотрудники крупных корпораций тратят до 36% рабочего времени на рутинные операции поиска и консолидации информации, что создает риск снижения качества производственных решений и прикладных исследований. Попытки локально решить проблему с помощью баз знаний, где эксперты вручную структурируют информацию и фиксируют полезный опыт, часто сталкиваются с быстрой потерей актуальности такой базы либо с высокой стоимостью ее сопровождения.
За последние годы проблема быстрого доступа к накопленной информации о проектах, технологиях и исследованиях стала актуальной и для
Рынок систем интеллектуального поиска
Системы интеллектуального (когнитивного) поиска являются продолжением эволюции более общего класса решений — систем корпоративного поиска (Enterprise Search Engines), появившихся на рынке в
ФАКТЫ
36% рабочего времени тратят сотрудники крупных корпораций на рутинные операции поиска и консолидации информации.
650 ТБ превысил объем файлового хранилища
10 месяцев заняла реализация проекта.
Новый этап в развитии корпоративных поисковых систем начался с применением технологий искусственного интеллекта и машинной обработки естественного языка (Natural Language Processing, NLP). Задачей поисковой системы стало понять намерение человека, обращающегося с поисковым запросом, и предложить максимально релевантный ответ на поставленный вопрос с учетом дополнительных факторов: наличия близких по смыслу документов, имеющихся связей между документами, истории предыдущих запросов
На мировом рынке систем интеллектуального поиска представлены как глобальные корпорации, такие как IBM и Microsoft, так и менее известные нишевые игроки из Америки и Европы (Attivio, Coveo, Lucidworks, Sinequa и др.). Однако возможность применения предлагаемых этими компаниями решений в стратегически важных отраслях российской экономики неизбежно создает высокий риск, связанный с действием секторальных санкций США и Евросоюза. Поэтому российские компании нефтегазовой отрасли стали чаще рассматривать решения, предлагаемые отечественными
Общая архитектура системы когнитивного поиска
С точки зрения архитектуры, система когнитивного поиска состоит из сервера приложений, базы данных и вычислительного кластера. На этой инфраструктуре развертывается несколько взаимодействующих между собой компонентов системы:
- хранилище данных с интеграционным модулем и модулем, отвечающим за индексацию;
- вычислительный кластер с модулями, отвечающими за алгоритмы машинного обучения, оперативный анализ и обработку документов;
- собственно поисковую систему с модулями когнитивного поиска, управления контентом, администрирования, формирования уведомлений и рекомендаций.
Интеграционный модуль позволяет загружать в хранилище информацию из различных внутренних источников (сетевые папки, системы электронного документооборота, корпоративные порталы, системы управления рисками и др.). Для получения информации из внешних источников на практике обычно применяется отдельное хранилище данных с модулем, отвечающим за сбор данных (краулинг) с внешних площадок. После предварительной обработки эти данные могут передаваться в основное хранилище данных.
Этапы реализации когнитивного поиска
Успешность реализации поиска во многом зависит от того, к каким данным есть доступ. Поэтому важным, предваряющим всю остальную работу, этапом является анализ и подготовка данных. Изучаются все источники, типы документов и форматы их хранения, содержание и атрибуты. Объем работы достаточно велик, необходимо максимально сосредоточиться на деталях и «исключениях из правил» — позднее именно они могут стать причиной неоправданно трудозатратных правок алгоритмов извлечения и сохранения данных.
После того как работа по изучению закончена, происходит интеграция источников, объединение документов в одном хранилище данных. Для этого разрабатывается модель данных, на базе которой специалисты осуществляют взаимодействие с источниками, создают хранилище данных, его архитектура зависит от особенностей
Затем данные проходят дополнительную трансформацию для модуля семантической обработки: улучшается качество распознанного контента, решается проблема с кодировкой, мусорными символами
На основе извлеченных текстовых данных из документов строится языковая модель, которая учитывает специфику и нормы употребления слов в
После этапа машинного обучения модель может рассчитывать специальные признаки документов, которые передают краткую суть документа, его смысл. Такое семантическое пространство — базис для дальнейшего анализа и интеллектуализации системы. Для структурирования коллекции документов (решения задач группировки по смыслу, выделения ключевых слов, присвоения тегов) и в конечном счете для снижения временных затрат на изучение данных также используются алгоритмы машинного обучения.
На последнем этапе происходит настройка алгоритмов поиска и ранжирования. Интеллектуальная система может осуществлять поиск по нечеткому запросу. Алгоритмы позволяют системе найти ответ на пользовательский вопрос, даже если документы не содержат точных слов из запроса. В отличие от обычного поиска считывается именно смысл запроса, а не последовательность символов. Модель ранжирования документов в выдаче может корректироваться с учетом множества параметров, которые суммарно обеспечивают высокую степень релевантности поисковой выдачи: актуальность документа, различные приоритеты для контента документа и атрибутов, особенности лексики запроса
Все это, а также система фильтров, тезаурусы предметной области, возможность расширения поисковой выдачи за счет учета в запросе семантических аналогов делают настройку поиска сложной, но интересной задачей, итоги которой позднее помогают людям в их работе.
Уникальное решение менее чем за год
Прежде всего НТЦ принял решение провести пилотное внедрение когнитивной поисковой системы в собственном офисе в
В ходе проекта была проведена большая работа с накопленными
Семантическая обработка данных, загруженных в новую базу данных, стала одним из наиболее интересных этапов проекта. Документы прошли этапы извлечения контента, лемматизации, фильтрации, формирования семантического пространства на базе обучающей выборки. Была рассчитана семантическая близость между документами и семантические аналоги слов с помощью дистрибутивной семантики. Для каждого документа выделены ключевые слова и аннотации для быстрого понимания сути большого объема контента. В итоге все загруженные данные были обработаны алгоритмами семантического анализа, проиндексированы и стали доступны для поиска.
Запросы к поисковому сервису учитывают морфологию слов в запросе, понимают ряд сокращений и специализированных терминов. Фильтрация поисковой выдачи позволяет оставить в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить в выдаче только документы с заданным типом (книги, НМД, статьи, патенты
Ключевой сложностью при реализации новой системы стало качество, а также разнородность входных данных (новости, методические документы, регламенты, книги, проекты
«Все в одном» для поиска и обработки информации
В настоящее время созданным решением регулярно пользуются порядка 100 специалистов
Методы машинного обучения, примененные в разработанной системе, обеспечивают поддержку решения задач в разных областях исследовательской и аналитической деятельности, поддерживают необходимый сотрудникам уровень информированности, позволяют им более эффективно работать с большими объемами разнородной информации.
В результате система существенно сократила временные затраты на поиск и анализ информации, а также повысила эффективность принятия решений за счет точности и полноты результатов поисковой выдачи.
Перспективы развития системы поиска внутри холдинга
После завершения пилотного проекта система когнитивного поиска получит дальнейшее функциональное развитие и тиражирование на подразделения «Газпром нефти» в рамках реализации масштабной программы «Search», направленной на управление контентом и данными холдинга.
Положительный опыт в реализации системы когнитивного поиска обратил на себя внимание внутри отрасли и за ее пределами. В конце 2018 года проект стал победителем конкурса «Лучшие 10
*Отчет IDC «Как искусственный интеллект улучшает корпоративный поиск и доступ к информации?», 2018 год.