www.cio.ru: Когнитивная система в «Газпром нефти»: эксперт для экспертов
О том, что дает компании «умный поиск», рассказал руководитель проекта в Научно-техническом центре «Газпром нефти» Евгений Кирьянов, номинант на премию CDO Award 2019.
Объемы информации, необходимой для принятия решений, непрерывно растут. Но при этом нельзя допустить, чтобы на поиск необходимой пользователю информации уходило много времени. Информационные технологии, используемые в
В НТЦ разрабатывают эффективные технологии добычи нефти на основе самых современных научных исследований. Еще одно важное направление деятельности компании, которым занимаются сотрудники Центра управления бурением «ГеоНавигатор» в
В прошлом году здесь реализовали проект «Система когнитивного поиска», который способен поднять на качественно новый уровень работу сотрудников всей компании. О том, что дает компании «умный поиск», рассказал руководитель проекта в
— В чем суть задачи, которую решает этот проект?
Для нас, как и для любой наукоемкой компании, крайне важны исследования, связанные с решением повседневных
Проанализировав имеющиеся базы данных и источники информации, мы увидели следующее.
Сначала мы попробовали построить поисковую систему на основе технологии Microsoft Share Point, но очень быстро выяснилось, что даже с ручным управлением, составлением словарей синонимов и настройкой фильтров стандартный поиск не справляется.
Поэтому мы решили создать собственную
— Почему понадобилась именно когнитивная система?
Если документов немного, мы можем использовать поиск на базе совпадения слов, но когда число документов близится к миллиону, система выдает слишком много результатов. При этом в поисковой выдаче нет ранжирования по тому параметру, который важен сотруднику именно сейчас.
Система когнитивного поиска работает
Когнитивный поиск позволяет задавать вопросы с уточнениями и получать сфокусированные ответы, а фильтрация — оставлять в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить только документы заданного типа.
— Подстраивается ли система под запросы конкретного пользователя? Вы создаете свой внутренний Google?
Сравнивать ее с Google и «Яндексом» я бы не стал, у нашей поисковой системы иные задачи. Мы только развиваем персонализацию и планируем в этом году сделать ее качественной. Дело в том, что наши сотрудники занимаются абсолютно разными вещами. Даже геологи, сидящие в одном отделе, могут решать совершенно разные задачи. Например, одни по стандартной модели рассчитывают запасы, а другие — развивают искусственный интеллект и нейронные сети в геологии. Соответственно, одним система должна выдавать более фундаментальную геологическую информацию, а другим — скорее «айтишную» или на стыке геологии и ИТ. То есть без персонализации работа системы не будет достаточно эффективной.
— Как вы выбирали подход к решению задачи?
Мы познакомились с имеющимися российскими и международными разработками, причем активно изучали опыт не только нефтяных и энергетических компаний, но и
— Какие данные использует система и какова стратегия их сбора?
Объем внутреннего файлового хранилища «Газпром нефти» превышает сотни терабайт. Кроме него в первом прототипе системы мы использовали наборы данных из внешних
В дальнейшем начнем расширять перечень внешних источников — примерно до ста, добавим также ресурсы, которые наши эксперты используют в своей работе.
— Какими технологическими средствами вы решали поставленную задачу?
В основе лежит система ElasticSearch, многое было разработано на языке Scala. Использованы и другие свободно распространяемые программные продукты, а также решения Naumen.
Поиск — это внутреннее
— Какие были основные сложности в ходе проекта, как их преодолевали?
Взаимодействие с любыми поисковыми системами выстраивается постепенно, вначале люди не доверяют возможностям технологии. Мы помним это по опыту взаимодействия с «Яндексом» и Google: несколько лет назад мы вбивали в строку запроса лишь
Пользователи уже начинают больше доверять корпоративной системе: раньше поисковые запросы были в
Технические сложности были
— В какой срок вы рассчитываете накопить объем запросов, достаточный для интеллектуального роста системы?
У нас нет этой проблемы, потому что нам не требуется такого количества запросов, как у Google. Мы избегаем «холодного» старта, характерного для систем машинного обучения, базирующихся на сборе информации без «учителя». Например, новому геологу, введенному в нашу систему, мы дадим модель, уже обученную для другого сотрудника с наиболее близким функционалом. Мы проводили экспертное обучение, то есть подаваемые в систему материалы уже размечены, проанализированы экспертами и «готовы к употреблению». Поэтому острой нужды в накоплении большого количества данных нет. Тем не менее мы рассчитываем на то, что через год система будет работать гораздо лучше, чем сейчас, потому что она еще и самообучается.
— Каких результатов вам удалось достичь?
По экспертной оценке, сотрудники занимаются поиском информации и
И еще один важный итог. Мы провели эксперимент: две группы сотрудников получили задачу по определенному направлению и доступ к системе умного поиска для ее решения. При этом ни в одной из групп не было специалиста по данному направлению. И участники обеих групп решили задачу на таком уровне, который позволил применить их решение в компании. Оказалось, что система может выступать в роли эксперта в тех ситуациях, когда пользователь не знает точно, что ему делать. С помощью «умной системы» он может найти ответы на свои вопросы и решить задачи, с которыми не сталкивался прежде. Найти в Интернете видеоинструкцию и сразу сделать хорошо то, что делаешь впервые, сегодня уже не проблема.
Когнитивная система служит для управления знаниями и их трансфера между подразделениями.
— Как планируется дальше развивать этот проект, помимо персонализации поиска?
Мы уже начали распространять решение на весь холдинг, скоро откроем его всем сотрудникам. Будем расширять возможности подключения к платформе по API других приложений и источников знаний. Намерены развивать инструмент, позволяющий делать аналитику на основе семантики запроса. Хотим сильно продвинуться в создании знаний, которых не существовало до запроса. То есть, анализируя несколько источников, система должна уметь собрать из множества документов один и предоставить его в ответ на запрос пользователя.