Forbes: Я слышу голоса: «Т-Технологии» опубликовали ИИ-модель, умеющую троллить мошенников
ИИ-центр группы «Т-Технологии», владеющей 99,97% акций Т-Банка, выложил в открытый доступ модель автоматического распознавания речи T-one. Отличие этой модели от похожих open source разработок «Сбера» и Open AI в том, что модель «Т-Технологий» распознает речь в потоке, а также обгоняет конкурентов по качеству, утверждают в компании.
ИИ навострил уши
О выпуске в открытый доступ модели T-one Forbes сообщили представители «Т-Технологий» в ходе Второй конференции по машинному обучению (ML) Turbo ML Conf, прошедшей в Москве 19 июля в кластере «Ломоносов» ИНТЦ МГУ «Воробьевы горы». Модель была опубликована на платформах Hugging Face и GitHub.
По данным «Т-Технологий», T-one состоит из 70 млн параметров, то есть сравнительно небольшого размера. Для сравнения: ASR-модель компании SberDevices GigaAM состоит из 240 млн параметров, в ASR-модели Whisper large-v3 от OpenAI — 1,55 млрд параметров. По оценке «Т-Технологий», Т-one обгоняет большие открытые ASR-модели, GigaAM v2 и Whisper Large-v3, по качеству распознавания на русском в телефонии.
«Такие модели могут быть интересны и бизнесу, и научному сообществу: размер T-one позволяет запустить модель с ноутбука, и даже с учетом обслуживания, аренды или эксплуатации на своих серверах она обойдется в десятки раз дешевле готовых решений от облачных провайдеров. Например, это могут быть компании, разрабатывающие голосовых роботов и ассистентов, занимающиеся автоматизацией кол-центров. Они могут взять за основу эту модель и адаптировать ее под свои решения. Это позволит сократить ресурсы на разработку с нуля, — рассказал представитель «Т-Технологий». — Для нас это важно, потому что это дает возможность провалидировать наши подходы и улучшить работу модели».
«Расходы на разработку модели составили не более 10 млн рублей», — сообщили в компании. В эту сумму входит стоимость аппаратного обеспечения и фонд оплаты труда сотрудников, участвовавших в проекте. Аналогичная модель уже внедрена в ряде внутренних продуктов
Дальше без Олега
Распознавание речи относится к технологиям обработки естественного языка (NLP), напоминает директор департамента контактных центров и роботизированных систем Naumen Сергей Попов. Совокупный рынок
«Рынок автоматического распознавания и синтеза речи отдельно также демонстрирует положительную динамику. В 2024 году он достиг объема 680 млн рублей, продемонстрировав рост на 7%, — сообщил Попов. — В структуре рынка диалогового ИИ сегмент занимает 11%, при этом 49% приходится на голосовых роботов — ключевых потребителей технологий ASR и TTS (
День открытых дверей
На рынке уже есть ряд решений для распознавания русского языка, говорит технический директор и сооснователь компании CraftTalk Михаил Сбитников. По его словам, коммерческие решения предлагают «Яндекс»,
«Здорово, что появляются в open source модели распознавания речи на русском языке — это очень позитивный тренд для всей индустрии. Это дает возможность не только крупным компаниям, но и малому бизнесу, научным учреждениям и энтузиастам создавать инновационные продукты, — согласен старший директор по искусственному интеллекту „Авито“ Андрей Рыбинцев. — Мы в „Авито“ как компании с собственной моделью, обученной на десятках тысяч часов данных, хорошо понимаем, какие ресурсы, экспертиза и инвестиции стоят за такими разработками».
Речевые технологии уже находят применение в самых разных сценариях, отмечает Рыбинцев. «В контактных центрах они помогают быстрее обрабатывать обращения клиентов, а в модерации контента ускоряют выявление потенциальных нарушений. В „Авито“ мы используем речевые модели для защиты пользователей от спама, определения целевых обращений для профессиональных продавцов и маршрутизации запросов через голосовую поддержку», — говорит он.
Российские
MWS AI разрабатывает собственные технологии в сфере речевой аналитики. «На сегодняшний момент в департаменте клиентского сервиса МТС около 60% запросов обрабатывает нейросеть, а
Возможность распознавания речи в реальном времени — важная особенность модели, отмечают в MWS AI. «Сегодня многие компании используют речевую аналитику для оценки качества обслуживания клиентов, но это почти всегда анализ постфактум. Сначала записывают разговоры, затем их анализируют, выявляют ошибки и дают обратную связь — но клиент уже ушел, получив услугу того или иного уровня, — рассуждают в MWS AI. — Мы видим будущее в копайлотах для продавцов, работающих в реальном времени: они подсказывают, как отвечать на вопросы, помогают быстрее находить информацию и мгновенно корректируют процесс обслуживания». Среди других перспективных направлений в компании отметили распознавание эмоций, определение демографических характеристик (пола и возраста), а также выявление ботов и аудиодипфейков для защиты пользователей.
Опенсорс — драйвер развития современных технологий, и ASR не исключение, размышляет руководитель направления автоматического распознавания речи «Яндекса» Евгений Ганкович. По его словам, все больше
«Сегодня мы видим разные примеры
Представитель VK отказался от комментариев, в «Сбере» не ответили на запрос.