Публикации

В пресс-центр

Neftegaz.ru, № 2/2019 г.: Интеллектуальный поиск как инструмент развития научно-технического потенциала компаний нефтегазовой отрасли

Предприятия нефтегазовой отрасли традиционно занимают лидирующие позиции в вопросах использования инноваций. Высокая степень конкуренции, сложные технологические процессы, капиталоемкость разведки и разработки месторождений — все эти факторы создают потребность в инженерно-технологических решениях, использующих лучший опыт из российской и международной практики. Одним из направлений развития в этой области является использование систем интеллектуального поиска, повышающих скорость доступа к информации о проектах, научном опыте и лучших практиках. В 2018 году возможность оценить эффективность такой системы появилась у сотрудников Научно-Технического центра «Газпром Нефти».

Потребность в применении интеллектуального поиска определяют два ключевых фактора — растущий объем неструктурированной информации, хранимой и передаваемой в виде различного вида документов и файлов, а также ограниченные способности человека в быстром извлечении из этих массивов данных качественных ответов на вопросы, связанные с решением инженерных задач, научными исследованиями и т. д.

Объем неструктурированных данных в компаниях сегодня измеряется тера- и петабайтами: они включают в себя разные виды технологической, проектной и нормативно-методической документации (включая сканы документов, чертежи и схемы процессов), публикации, научную литературу и др. Практически всегда эта информация разделена между несколькими хранилищами, отсутствует единый инструмент поиска и тематический классификатор. Все это затрудняет доступ к информации, мешает организовать трансфер знаний внутри компании, оптимизировать бизнес-процессы и создавать инновационные решения.

Как показывает свежее исследование агентства IDC*, сотрудники крупных корпораций тратят до 36% рабочего времени на рутинные операции поиска и консолидации информации, что создает риск снижения качества производственных решений и прикладных исследований. Попытки локально решить проблему с помощью баз знаний, где эксперты вручную структурируют информацию и фиксируют полезный опыт, часто сталкиваются с быстрой потерей актуальности такой базы либо с высокой стоимостью ее сопровождения.

За последние годы проблема быстрого доступа к накопленной информации о проектах, технологиях и исследованиях стала актуальной и для Научно-Технического Центра «Газпром нефти», единственного российского центра, совмещающего научные исследования, разработку технологий добычи нефти и дистанционное управление высокотехнологичными производственными процессами. В 2017 году объем файлового хранилища Научно-Технического Центра превысил 650 ТБ. Принимая во внимание риски, связанные со снижением скорости и качества доступа к информации, руководство компании инициировало проект создания поисковой системы, основанной на когнитивном анализе данных.


Рынок систем интеллектуального поиска

Системы интеллектуального (когнитивного) поиска являются продолжением эволюции более общего класса решений — систем корпоративного поиска (Enterprise Search Engines), появившихся на рынке в 90-е годы прошлого века. На предыдущих этапах своего развития эти системы решали в основном вопросы, связанные с интеграцией хранилищ данных, быстрой индексацией информации и реализации полнотекстового поиска на основе построенного индекса.

ФАКТЫ

36% рабочего времени тратят сотрудники крупных корпораций на рутинные операции поиска и консолидации информации.

650 ТБ превысил объем файлового хранилища Научно-Технического Центра «Газпром нефти» в 2017 году.

10 месяцев заняла реализация проекта.

Новый этап в развитии корпоративных поисковых систем начался с применением технологий искусственного интеллекта и машинной обработки естественного языка (Natural Language Processing, NLP). Задачей поисковой системы стало понять намерение человека, обращающегося с поисковым запросом, и предложить максимально релевантный ответ на поставленный вопрос с учетом дополнительных факторов: наличия близких по смыслу документов, имеющихся связей между документами, истории предыдущих запросов и т. д. Также эти системы способны понимать неточные запросы, запросы с использованием аббревиатур, профессиональных терминов и пр. Новое поколение умных поисковых систем все чаще стали называть Insight Engines, у этого термина до сих пор нет точного перевода на русский, наиболее близкий вариант — системы когнитивного поиска.

На мировом рынке систем интеллектуального поиска представлены как глобальные корпорации, такие как IBM и Microsoft, так и менее известные нишевые игроки из Америки и Европы (Attivio, Coveo, Lucidworks, Sinequa и др.). Однако возможность применения предлагаемых этими компаниями решений в стратегически важных отраслях российской экономики неизбежно создает высокий риск, связанный с действием секторальных санкций США и Евросоюза. Поэтому российские компании нефтегазовой отрасли стали чаще рассматривать решения, предлагаемые отечественными ИТ-компаниями. Одним из таких производителей систем интеллектуального поиска является российская компания NAUMEN.

Общая архитектура системы когнитивного поиска

С точки зрения архитектуры, система когнитивного поиска состоит из сервера приложений, базы данных и вычислительного кластера. На этой инфраструктуре развертывается несколько взаимодействующих между собой компонентов системы:

  • хранилище данных с интеграционным модулем и модулем, отвечающим за индексацию;
  • вычислительный кластер с модулями, отвечающими за алгоритмы машинного обучения, оперативный анализ и обработку документов;
  • собственно поисковую систему с модулями когнитивного поиска, управления контентом, администрирования, формирования уведомлений и рекомендаций.

Интеграционный модуль позволяет загружать в хранилище информацию из различных внутренних источников (сетевые папки, системы электронного документооборота, корпоративные порталы, системы управления рисками и др.). Для получения информации из внешних источников на практике обычно применяется отдельное хранилище данных с модулем, отвечающим за сбор данных (краулинг) с внешних площадок. После предварительной обработки эти данные могут передаваться в основное хранилище данных.

Этапы реализации когнитивного поиска

Успешность реализации поиска во многом зависит от того, к каким данным есть доступ. Поэтому важным, предваряющим всю остальную работу, этапом является анализ и подготовка данных. Изучаются все источники, типы документов и форматы их хранения, содержание и атрибуты. Объем работы достаточно велик, необходимо максимально сосредоточиться на деталях и «исключениях из правил» — позднее именно они могут стать причиной неоправданно трудозатратных правок алгоритмов извлечения и сохранения данных.

После того как работа по изучению закончена, происходит интеграция источников, объединение документов в одном хранилище данных. Для этого разрабатывается модель данных, на базе которой специалисты осуществляют взаимодействие с источниками, создают хранилище данных, его архитектура зависит от особенностей бизнес-задач, решаемых с помощью системы.

Затем данные проходят дополнительную трансформацию для модуля семантической обработки: улучшается качество распознанного контента, решается проблема с кодировкой, мусорными символами и т. д.

На основе извлеченных текстовых данных из документов строится языковая модель, которая учитывает специфику и нормы употребления слов в научно-технических документах, т. е. понимает текст.

После этапа машинного обучения модель может рассчитывать специальные признаки документов, которые передают краткую суть документа, его смысл. Такое семантическое пространство — базис для дальнейшего анализа и интеллектуализации системы. Для структурирования коллекции документов (решения задач группировки по смыслу, выделения ключевых слов, присвоения тегов) и в конечном счете для снижения временных затрат на изучение данных также используются алгоритмы машинного обучения.

На последнем этапе происходит настройка алгоритмов поиска и ранжирования. Интеллектуальная система может осуществлять поиск по нечеткому запросу. Алгоритмы позволяют системе найти ответ на пользовательский вопрос, даже если документы не содержат точных слов из запроса. В отличие от обычного поиска считывается именно смысл запроса, а не последовательность символов. Модель ранжирования документов в выдаче может корректироваться с учетом множества параметров, которые суммарно обеспечивают высокую степень релевантности поисковой выдачи: актуальность документа, различные приоритеты для контента документа и атрибутов, особенности лексики запроса и т. д.

Все это, а также система фильтров, тезаурусы предметной области, возможность расширения поисковой выдачи за счет учета в запросе семантических аналогов делают настройку поиска сложной, но интересной задачей, итоги которой позднее помогают людям в их работе.

Уникальное решение менее чем за год

Прежде всего НТЦ принял решение провести пилотное внедрение когнитивной поисковой системы в собственном офисе в Санкт-Петербурге. Со стороны разработчика системы над проектом работала выделенная команда специалистов, в которую вошли: руководитель проекта, системный аналитик, бизнес-аналитик, архитектор, инженер QA, Data Science инженеры, Data Warehouse инженеры и инженеры-программисты. В тесном взаимодействии со специалистами Научно-Технического Центра они разработали функциональные модули сбора и хранилища данных, поисковой системы, поискового портала. Проектной командой была создана инфраструктура сервисов, обеспечивающих семантическую обработку данных для реализации семантического, полнотекстового и контекстного поиска информации.

В ходе проекта была проведена большая работа с накопленными Научно-Техническим Центром данными. Файлы из внутреннего хранилища заказчика были разобраны, извлеченный контент загружен в созданное хранилище неструктурированной информации. Помимо этого, хранилище данных было обогащено информацией из внешних источников, в частности — тематических и отраслевых новостных порталов.

Семантическая обработка данных, загруженных в новую базу данных, стала одним из наиболее интересных этапов проекта. Документы прошли этапы извлечения контента, лемматизации, фильтрации, формирования семантического пространства на базе обучающей выборки. Была рассчитана семантическая близость между документами и семантические аналоги слов с помощью дистрибутивной семантики. Для каждого документа выделены ключевые слова и аннотации для быстрого понимания сути большого объема контента. В итоге все загруженные данные были обработаны алгоритмами семантического анализа, проиндексированы и стали доступны для поиска.

Запросы к поисковому сервису учитывают морфологию слов в запросе, понимают ряд сокращений и специализированных терминов. Фильтрация поисковой выдачи позволяет оставить в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить в выдаче только документы с заданным типом (книги, НМД, статьи, патенты и т. д.). Карточка документа содержит набор (топ-5) автоматически подобранных близких документов, что является альтернативным способом поиска — когнитивный подбор релевантных документов по смыслу.

Ключевой сложностью при реализации новой системы стало качество, а также разнородность входных данных (новости, методические документы, регламенты, книги, проекты и т. д.) и их источников (системы распространения знаний, корпоративные новостные порталы, внешние источники, сетевые папки). Качество отсканированных документов сильно отличалось, многие документы были «зашумлены», что повлекло сложности с распознаванием информации и потребовало дополнительных действий по предобработке документов: очистки, удаления нечитаемых фрагментов и нераспознанного текста.

«Все в одном» для поиска и обработки информации

В настоящее время созданным решением регулярно пользуются порядка 100 специалистов Научно-Технического Центра. Когнитивная поисковая система стала для них «единым окном» для быстрого поиска контента на различных ресурсах и универсальным механизмом, позволяющим вести научную и аналитическую работу с результатами поисковой выдачи. Доступная база для поиска расширилась за счет возможности поиска по документам, хранящимся в форматах, ранее недоступных, таким как pdf, djvu, где требовалась предобработка графической информации в документах. Система также выполняет функции трансфера и управления знаниями между подразделениями и функциями организации.

Методы машинного обучения, примененные в разработанной системе, обеспечивают поддержку решения задач в разных областях исследовательской и аналитической деятельности, поддерживают необходимый сотрудникам уровень информированности, позволяют им более эффективно работать с большими объемами разнородной информации.

В результате система существенно сократила временные затраты на поиск и анализ информации, а также повысила эффективность принятия решений за счет точности и полноты результатов поисковой выдачи.

Перспективы развития системы поиска внутри холдинга

После завершения пилотного проекта система когнитивного поиска получит дальнейшее функциональное развитие и тиражирование на подразделения «Газпром нефти» в рамках реализации масштабной программы «Search», направленной на управление контентом и данными холдинга.

Положительный опыт в реализации системы когнитивного поиска обратил на себя внимание внутри отрасли и за ее пределами. В конце 2018 года проект стал победителем конкурса «Лучшие 10 ИТ-проектов для нефтегазовой отрасли» в номинации «Корпоративная информационная система», в январе 2019 года он также получил награду в специальной номинации «Выбор Global CIO» в конкурсе «Проект года».

*Отчет IDC «Как искусственный интеллект улучшает корпоративный поиск и доступ к информации?», 2018 год.

Голицын Лев, Романова Ольга

Neftegaz.ru, № 2/2019 г.