Новая «нефть» для нефтяной отрасли: управление данными предприятия с помощью инструментов интеллектуального поиска и анализа
Ведущие энергетические компании занимают лидирующие позиции в вопросах внедрения инновационных цифровых технологий. Высокая конкуренция, сложность технологических процессы, капиталоемкость разведки и разработки месторождений — все эти факторы заставляют компании нефтегазовой отрасли обращаться к лучшим российским и международным практикам. Одним из направлений развития в данной области является использование современных систем интеллектуального поиска и анализа данных, повышающих скорость доступа к информации о проектах, научном опыте и технологиях. В 2019 году возможности и преимущества такой системы оценили сотрудники П
«Тот, кто научится превращать информационные массивы в полезные решения, тот выиграет, и наоборот, тот, кто упустит эти возможности, останется на месте, может быть, даже навсегда»
Дмитрий Медведев, Председатель Правительства Российской Федерации
Интеллектуальный поиск: зачем и что искать?
Потребность в использовании систем интеллектуального поиска и анализа данных определяют два ключевых фактора — непрерывно растущий объем неструктурированной информации, хранимой и передаваемой в виде различного вида документов и файлов, а также ограниченные способности человека в быстром извлечении из этих массивов данных качественных ответов. По прогнозам IDC[1], к 2020 г. цифровая вселенная продолжит свой рост и достигнет объема в 40 зеттабайт, что превосходит ранее предложенный прогноз на 5 зеттабайт. За последние 9 лет с начала 2010 г. объем данных вырос в 50 раз, при этом проанализировано менее 1% всей имеющейся информации.
Объем неструктурированных данных в компаниях нефтегазового сектора сегодня измеряется тера- и петабайтами: они включают в себя разные виды технологической, проектной и
В разные годы сразу несколько международных аналитических компаний в числе которых Gartner, McKinsey&Company и IDC[2], проводили исследования, согласно которым, в среднем сотрудники компаний тратят до 25–35% рабочего и оплачиваемого работодателем времени на поиск необходимой информации.
Возможность быстро и точно найти необходимую информацию зависит от способности сотрудника найти ответ на следующие вопросы:
- В каком документе содержится нужная информация?
- Где необходимо искать требуемый документ / источник информации?<
- Как правильно сформулировать запрос?
- Какая версия документа актуальная?
Сотрудники вынуждены искать информацию сразу по нескольким корпоративным систем (в среднем, до 4–6), а в случае, если необходимая информация не найдена, им приходится дублировать работу: решать уже решенные задачи, создавать уже созданные документы, реализовывать уже реализованные проекты.
В условиях цифровой трансформации отрасли на первый план выходят скорость и качество процессов информационного обеспечения, что в конечном итоге влияет на рентабельность и эффективность деятельности предприятия.
Как поиск стал интеллектуальным?
Попытки локально решить проблему с помощью баз знаний, где эксперты вручную структурируют информацию и фиксируют полезный опыт, часто сталкиваются с быстрой потерей актуальности такой базы либо с высокой стоимостью ее сопровождения. Согласно The Forrester Wave корпоративные поисковые системы прошлого устарели. Системы когнитивного поиска — это новое поколение поисковой системы предприятия, которая использует искусственный интеллект (AI) для получения результатов, которые более актуальны для конкретного пользователя.
Сегодня задачей поисковой системы стало понять намерение пользователя, обращающегося с поисковым запросом, и предложить максимально релевантный ответ на поставленный вопрос с учетом дополнительных факторов: наличия близких по смыслу документов, имеющихся связей между документами, истории предыдущих запросов
Новое поколение умных поисковых систем получили название Insight Engines, у этого термина до сих пор нет точного перевода на русский, наиболее близкий вариант — системы когнитивного поиска.
В отчете Gartner «Magic Quadrant for Insight Engines» за 2018 год содержится информация о 13 вендорах, представленных на мировом рынке систем интеллектуального поиска и анализа. Среди них есть как глобальные корпорации, такие как IBM и Microsoft, так и менее известные нишевые игроки из Америки и Европы (Attivio, Coveo, Lucidworks, Sinequa, Mindbreeze и др.). В своем исследовании Gartnerтакже предсказывает, что к 2022 году благодаря применению систем интеллектуального поиска и анализа необходимая информация будет сама «находить» сотрудников на основании его истории поиска и интересов, тем самым число поисковых запросов, генерируемых сотрудниками самостоятельно, сократится на 20%.
В связи с действием санкций США и Евросоюза возможность применения предлагаемых зарубежными компаниями решений неизбежно создает высокий риск. Поэтому российские компании нефтегазовой отрасли стали чаще рассматривать решения отечественных
Проект внедрения системы интеллектуального поиска
Как для любой наукоемкой компании
Проанализировав имеющиеся базы данных и источники информации, были выявлены следующие ключевые проблемы: 1) неизвестно, в какой из множества систем находятся нужные знания, 2) информация требуется немедленно, а поиск занимает время. Архивы измерялись на тот момент сотнями терабайт и включали в себя сотни тысяч документов, в связи с чем инструменты стандартного поиска не давали нужного результата.
Принимая во внимание риски, связанные со снижением скорости и качества доступа к информации, руководство компании инициировало проект создания поисковой системы, основанной на когнитивном анализе данных.
Первым этапом реализации системы является анализ и подготовка накопленных данных. Файлы из внутреннего хранилища
После того как работа по изучению закончена, происходит интеграция источников, объединение документов в одном хранилище данных. Для этого разрабатывается модель данных, на базе которой специалисты осуществляют взаимодействие с источниками, создают хранилище данных, его архитектура зависит от особенностей
Затем данные проходят дополнительную трансформацию для модуля семантической обработки: улучшается качество распознанного контента, решается проблема с кодировкой, мусорными символами
На основе извлеченных текстовых данных из документов строится языковая модель, которая учитывает специфику и нормы употребления слов в
«Система сравнивает не буквы в словах, а смысловые значения слов, предложений и целых текстов, учитывает морфологию слов в запросе, понимает сокращения и специализированные термины. И, например, по запросу „легкие фракции нефти“ она выдаст результаты со словами „бензин“ и „керосин“. Даже если мы
Семантическая обработка данных, загруженных в базу данных, стала одним из наиболее интересных этапов проекта. Документы прошли этапы извлечения контента, лемматизации, фильтрации, формирования семантического пространства на базе обучающей выборки. Была рассчитана семантическая близость между документами и семантические аналоги слов с помощью дистрибутивной семантики. Для каждого документа выделены ключевые слова и аннотации для быстрого понимания сути большого объема контента. В итоге все загруженные данные были обработаны алгоритмами семантического анализа, проиндексированы и стали доступны для поиска.
После завершения пилотного проекта в 2019 году система получила дальнейшее функциональное развитие и тиражирование на П
[1] Исследование IDC «Big Data, Bigger Digital Shadows and Biggest Growth in the Far East»
[2] Данные исследований: McKinsey&Company «The impact of Internet technologies: Search»; Gartner «The Knowledge Worker Investment Paradox»; IDC «The High Cost of Not Finding Information»