Пресс-центр
В пресс-центр

Новая «нефть» для нефтяной отрасли: управление данными предприятия с помощью инструментов интеллектуального поиска и анализа

Ведущие энергетические компании занимают лидирующие позиции в вопросах внедрения инновационных цифровых технологий. Высокая конкуренция, сложность технологических процессы, капиталоемкость разведки и разработки месторождений — все эти факторы заставляют компании нефтегазовой отрасли обращаться к лучшим российским и международным практикам. Одним из направлений развития в данной области является использование современных систем интеллектуального поиска и анализа данных, повышающих скорость доступа к информации о проектах, научном опыте и технологиях. В 2019 году возможности и преимущества такой системы оценили сотрудники ПАО «Газпром нефть».

«Тот, кто научится превращать информационные массивы в полезные решения, тот выиграет, и наоборот, тот, кто упустит эти возможности, останется на месте, может быть, даже навсегда»
Дмитрий Медведев, Председатель Правительства Российской Федерации

Интеллектуальный поиск: зачем и что искать?

Потребность в использовании систем интеллектуального поиска и анализа данных определяют два ключевых фактора — непрерывно растущий объем неструктурированной информации, хранимой и передаваемой в виде различного вида документов и файлов, а также ограниченные способности человека в быстром извлечении из этих массивов данных качественных ответов. По прогнозам IDC[1], к 2020 г. цифровая вселенная продолжит свой рост и достигнет объема в 40 зеттабайт, что превосходит ранее предложенный прогноз на 5 зеттабайт. За последние 9 лет с начала 2010 г. объем данных вырос в 50 раз, при этом проанализировано менее 1% всей имеющейся информации.

Объем неструктурированных данных в компаниях нефтегазового сектора сегодня измеряется тера- и петабайтами: они включают в себя разные виды технологической, проектной и нормативно-методической документации (включая сканы документов, чертежи и схемы процессов), публикации, научную и техническую литературу и др. Практически всегда эта информация разделена между несколькими хранилищами, отсутствует единый инструмент поиска и тематический классификатор. Все это затрудняет доступ к информации, мешает организовать трансфер знаний внутри компании, оптимизировать бизнес-процессы и создавать инновационные решения.

В разные годы сразу несколько международных аналитических компаний в числе которых Gartner, McKinsey&Company и IDC[2], проводили исследования, согласно которым, в среднем сотрудники компаний тратят до 25–35% рабочего и оплачиваемого работодателем времени на поиск необходимой информации.

Возможность быстро и точно найти необходимую информацию зависит от способности сотрудника найти ответ на следующие вопросы:

  • В каком документе содержится нужная информация?
  • Где необходимо искать требуемый документ / источник информации?<
  • Как правильно сформулировать запрос?
  • Какая версия документа актуальная?

Сотрудники вынуждены искать информацию сразу по нескольким корпоративным систем (в среднем, до 4–6), а в случае, если необходимая информация не найдена, им приходится дублировать работу: решать уже решенные задачи, создавать уже созданные документы, реализовывать уже реализованные проекты.

В условиях цифровой трансформации отрасли на первый план выходят скорость и качество процессов информационного обеспечения, что в конечном итоге влияет на рентабельность и эффективность деятельности предприятия.

Как поиск стал интеллектуальным?

Попытки локально решить проблему с помощью баз знаний, где эксперты вручную структурируют информацию и фиксируют полезный опыт, часто сталкиваются с быстрой потерей актуальности такой базы либо с высокой стоимостью ее сопровождения. Согласно The Forrester Wave корпоративные поисковые системы прошлого устарели. Системы когнитивного поиска — это новое поколение поисковой системы предприятия, которая использует искусственный интеллект (AI) для получения результатов, которые более актуальны для конкретного пользователя.

Сегодня задачей поисковой системы стало понять намерение пользователя, обращающегося с поисковым запросом, и предложить максимально релевантный ответ на поставленный вопрос с учетом дополнительных факторов: наличия близких по смыслу документов, имеющихся связей между документами, истории предыдущих запросов и т. д. Подобные системы способны понимать неточные запросы, запросы с использованием аббревиатур, синонимов, профессиональных терминов и пр. Помимо этого системы осуществляют анализ контента, в базовый функционал, как правило, включено: оценка версионности документов, семантический анализ, формирование наборов тематически схожих документов, автоматическая категоризация документов. Таким образом, система предоставляет возможность с одинаковым удобством вести поиск в десятках источников данных и получать точный ответ на поисковый запрос, сфокусированный на потребности пользователя.

Новое поколение умных поисковых систем получили название Insight Engines, у этого термина до сих пор нет точного перевода на русский, наиболее близкий вариант — системы когнитивного поиска.

В отчете Gartner «Magic Quadrant for Insight Engines» за 2018 год содержится информация о 13 вендорах, представленных на мировом рынке систем интеллектуального поиска и анализа. Среди них есть как глобальные корпорации, такие как IBM и Microsoft, так и менее известные нишевые игроки из Америки и Европы (Attivio, Coveo, Lucidworks, Sinequa, Mindbreeze и др.). В своем исследовании Gartnerтакже предсказывает, что к 2022 году благодаря применению систем интеллектуального поиска и анализа необходимая информация будет сама «находить» сотрудников на основании его истории поиска и интересов, тем самым число поисковых запросов, генерируемых сотрудниками самостоятельно, сократится на 20%.

В связи с действием санкций США и Евросоюза возможность применения предлагаемых зарубежными компаниями решений неизбежно создает высокий риск. Поэтому российские компании нефтегазовой отрасли стали чаще рассматривать решения отечественных ИТ-компаний. Одним из российских производителей систем интеллектуального поиска и анализа данных является компания NAUMEN, которая в 2018 году успешно реализовала пилотный проект для Научно-Технического Центра «Газпром нефти» по разработке поисковой ИТ-системы, основанной на когнитивном анализе данных. Положительный опыт в реализации системы обратил на себя внимание внутри отрасли и за ее пределами. В конце 2018 года проект стал победителем конкурса «Лучшие 10 ИТ-проектов для нефтегазовой отрасли» в номинации «Корпоративная информационная система», в январе 2019 года он также получил награду в специальной номинации «Выбор Global CIO» в конкурсе «Проект года».

Проект внедрения системы интеллектуального поиска

Как для любой наукоемкой компании Научно-Техническому Центру «Газпром нефти» были крайне важны исследования, связанные с решением повседневных бизнес-задач и преодолением технологических вызовов. Сотрудники компании нацелены на поиск новых решений, подходов и знаний, для чего необходимо постоянно обращаться как к внешнему отраслевому опыту, так и к внутреннему опыту, накопленному внутри организации за годы ее работы.

Проанализировав имеющиеся базы данных и источники информации, были выявлены следующие ключевые проблемы: 1) неизвестно, в какой из множества систем находятся нужные знания, 2) информация требуется немедленно, а поиск занимает время. Архивы измерялись на тот момент сотнями терабайт и включали в себя сотни тысяч документов, в связи с чем инструменты стандартного поиска не давали нужного результата.

Принимая во внимание риски, связанные со снижением скорости и качества доступа к информации, руководство компании инициировало проект создания поисковой системы, основанной на когнитивном анализе данных.

Первым этапом реализации системы является анализ и подготовка накопленных данных. Файлы из внутреннего хранилища Научно-Технического Центра были разобраны, извлеченный контент загружен в созданное хранилище неструктурированной информации. Хранилище данных было обогащено информацией из внешних источников, в частности — тематических и отраслевых новостных порталов (в дальнейшем перечень внешних источников планируется увеличить примерно до ста).

После того как работа по изучению закончена, происходит интеграция источников, объединение документов в одном хранилище данных. Для этого разрабатывается модель данных, на базе которой специалисты осуществляют взаимодействие с источниками, создают хранилище данных, его архитектура зависит от особенностей бизнес-задач, решаемых с помощью системы.

Затем данные проходят дополнительную трансформацию для модуля семантической обработки: улучшается качество распознанного контента, решается проблема с кодировкой, мусорными символами и т. д.

На основе извлеченных текстовых данных из документов строится языковая модель, которая учитывает специфику и нормы употребления слов в научно-технических документах, т. е. понимает текст. После этапа машинного обучения модель может рассчитывать специальные признаки документов, которые передают краткую суть документа, его смысл. Такое семантическое пространство — базис для дальнейшего анализа и интеллектуализации системы.

«Система сравнивает не буквы в словах, а смысловые значения слов, предложений и целых текстов, учитывает морфологию слов в запросе, понимает сокращения и специализированные термины. И, например, по запросу „легкие фракции нефти“ она выдаст результаты со словами „бензин“ и „керосин“. Даже если мы по-разному пишем одни и те же термины, система очень быстро сама обучается и понимает, что написанное по-русски и по-английски — это одно и то же», — комментирует возможности системы Евгений Кирьянов, руководитель проекта в НТЦ «Газпром нефти».

Семантическая обработка данных, загруженных в базу данных, стала одним из наиболее интересных этапов проекта. Документы прошли этапы извлечения контента, лемматизации, фильтрации, формирования семантического пространства на базе обучающей выборки. Была рассчитана семантическая близость между документами и семантические аналоги слов с помощью дистрибутивной семантики. Для каждого документа выделены ключевые слова и аннотации для быстрого понимания сути большого объема контента. В итоге все загруженные данные были обработаны алгоритмами семантического анализа, проиндексированы и стали доступны для поиска.

После завершения пилотного проекта в 2019 году система получила дальнейшее функциональное развитие и тиражирование на ПАО «Газпром нефть» в рамках реализации масштабной программы «Search», направленной на управление контентом и данными холдинга.



[1] Исследование IDC «Big Data, Bigger Digital Shadows and Biggest Growth in the Far East»

[2] Данные исследований: McKinsey&Company «The impact of Internet technologies: Search»; Gartner «The Knowledge Worker Investment Paradox»; IDC «The High Cost of Not Finding Information»

К.С. Есаулова, Naumen group
Инновации в ТЭК (проект Минэнерго России)

Ссылка на источник