RSpectr: Когда кончатся данные
Стоит ли ожидать дефицита качественной информации для обучения
Запасы данных в мире для обучения языковых моделей исчерпаются в 2026–2030 годах, прогнозируют эксперты. Выходом из этой ситуации могут стать синтетические данные, созданные искусственным интеллектом (ИИ). Действительно ли информация, на основе которой обучаются нейросети, может закончиться и насколько будут эффективны синтетические данные — в материале RSpectr.
Они точно закончатся?
Мировой запас общедоступных текстов, созданных человеком, составляет 300 трлн символов, подсчитал исследовательский институт Epoch AI. Также аналитики предположили, что объем информации для обучения больших языковых моделей (LLM) исчерпает себя до 2030 года. Созданные человеком высококачественные данные закончатся к 2028 году, предупреждают аналитики.
Однако
Открытые и оцифрованные данные могут закончиться, однако в настоящее время существует множество различных медиаформатов, благодаря которым можно продолжать тренировать
Эксперт добавил, что в будущем будут разрабатываться специализированные
Epoch AI драматизирует ситуацию c запасами данных, полагают в АНО «Цифровая экономика». Новая информация создается с куда большей скоростью, чем потребляется моделями ИИ, прокомментировали RSpectr аналитики.
Однако существует и другая точка зрения. ИИ — это далеко и не всегда про гигантские наборы данных.
В конце июня 2024 года компания Google добавила в свой переводчик 100 новых языков, среди которых такие низкорепрезентированные языки, как башкирский, бурятский, чувашский, а другая компания с 2022 года ведет активные разработки решений для подобных языков в рамках проекта NLLB (No Language Left Behind), рассказала RSpectr руководитель отдела анализа данных и машинного обучения Naumen Татьяна Зобнина.
Однако ключевой проблемой является не просто отсутствие дополнительного объема данных. Речь идет о нехватке именно качественных и полезных текстов, согласился с прогнозами Epoch AI заместитель исполнительного директора по IT & Data Science Центра НТИ по большим данным МГУ имени
Также важно отметить, что данные не только добавляются, но и пропадают и корректируются, что усложняет задачу обучения, пояснил RSpectr руководитель «Лаборатории инноваций НОРБИТ» Дмитрий Демидов.
Эксперт подчеркнул, что это может создать ситуацию, при которой ранняя
Родная речь
Но в исследовании Epoch AI речь идет исключительно о зарубежном опыте. Насколько нехватка качественного контента затронет русскоязычный сегмент?
В России имеется также ряд уникальных источников, которые могут быть использованы для обучения моделей. Это, например, не только данные из интернета, но и специализированные датасеты, создаваемые в рамках различных проектов и инициатив, рассказал в беседе с RSpectr директор по продуктам компании «Наносемантика» Григорий Шершуков.
Обучение
По мнению Дмитрия Демидова, отечественные разработки опираются чаще всего на существующие модели с открытым исходным кодом.
Дмитрий Демидов, «НОРБИТ»:
— Их дообучают либо общими данными, либо данными конкретного домена для решения
Алексей Нейман считает, что русскоязычный оцифрованный контент закончится быстрее, чем англоязычный, так как его значительно меньше.
«С этой точки зрения предобученные
Уже сейчас компании OpenAI, Google, Meta* и другие крупные разработчики самостоятельно составляют корпусы текстов для обучения своих моделей, специально задействуя профильных экспертов.
Бизнес привлекает специалистов по контенту, например копирайтеров и редакторов, для создания и проверки текстов, которые затем используются для обучения нейромоделей, рассказал RSpectr директор по продуктовому развитию ИИ Холдинга Т1 Сергей Карпович.
Он отметил, что сейчас большое внимание уделяется развитию синтетических данных, которые впоследствии будут использоваться в моделях.
Качественная «синтетика»
Комиссия по защите персональных данных Сингапура (Personal Data Protection Commission) провела исследование на тему синтетических данных. Под ними подразумевается информация, которая сгенерирована с использованием специально созданной математической модели.
Помогут ли искусственные данные в деле совершенствования моделей? Эксперты не имеют однозначного мнения насчет полезности такого рода информации.
Сергей Карпович, Холдинг Т1:
— В условиях нехватки органического контента синтетическая генерация данных становится логичным выходом. Если раньше такие массивы считались неподходящими для алгоритмов, то с развитием генеративных моделей ситуация меняется: качество данных растет, они все чаще используются в процессах машинного обучения.
Синтетические данные в качестве моделей могут внести совсем немного нового, и для решения этой проблемы можно применять умершие языки и изобретение новых, решения для генерации кода на языке Фортран, полагает Алексей Нейман. Он добавил, что «синтетика» может помочь только с узкоспециализированными задачами, в которых реальных данных (открытых текстов) слишком мало.
Однако не все эксперты уверены в пользе синтетических данных. Нужно искать другие способы решения проблемы с дефицитом качественных данных, полагают они.
Дмитрий Демидов считает, что использование «синтетики» — это повторное использование уже — переработанной информации. Полезных знаний у моделей от этого не добавится.
Александр Бирюков, МГУ имени
— Создание синтетических данных послужит лишь дополнительным механизмом для совершенствования
Новые пути
Если дефицит качественного контента
Алексей Нейман, АБД:
— Дальнейшему совершенствованию нейросетей могут послужить развитие механизма внимания в трансформерах*, новые архитектуры нейросетей, подходы к обучению и виды процессоров, а также рост производительности графического процессора GPU и обработка языка в любых формах: текст, изображение, звук.
В АНО «Цифровая экономика» считают, что основной фактор, который сейчас влияет на качество моделей, — это не объемы данных, а объемы вычислительных мощностей.
Александр Бирюков напомнил о перспективах квантового ИИ.
Александр Бирюков, МГУ имени
— Существующие алгоритмы не подходят для использования на квантовом компьютере в силу фундаментальных различий в принципах работы железа, на котором работает программа. Новые алгоритмы ускорят обучение на несколько порядков, а также могут позволить гораздо более эффективно извлекать информацию из имеющихся данных.
По мнению, Григория Шершукова из «Наносемантики», новым этапом станет использование гибридных моделей.
Комбинирование различных типов моделей, таких как нейронные сети и традиционные алгоритмы машинного обучения, может привести к созданию более гибких и мощных решений. Применение данных и подходов из разных областей науки и техники, таких как лингвистика, когнитивные науки и информатика, может привести к созданию более интеллектуальных и способных моделей, пояснил эксперт.
* Вид нейросетевой архитектуры, который хорошо подходит для обработки последовательностей данных.
Фото: RSpectr