Публикации

В пресс-центр

Forbes: Я слышу голоса: «Т-Технологии» опубликовали ИИ-модель, умеющую троллить мошенников

ИИ-модель, умеющая троллить мошенниковИИ-центр группы «Т-Технологии», владеющей 99,97% акций Т-Банка, выложил в открытый доступ модель автоматического распознавания речи T-one. Отличие этой модели от похожих open source разработок «Сбера» и Open AI в том, что модель «Т-Технологий» распознает речь в потоке, а также обгоняет конкурентов по качеству, утверждают в компании.

ИИ навострил уши

О выпуске в открытый доступ модели T-one Forbes сообщили представители «Т-Технологий» в ходе Второй конференции по машинному обучению (ML) Turbo ML Conf, прошедшей в Москве 19 июля в кластере «Ломоносов» ИНТЦ МГУ «Воробьевы горы». Модель была опубликована на платформах Hugging Face и GitHub.

По данным «Т-Технологий», T-one состоит из 70 млн параметров, то есть сравнительно небольшого размера. Для сравнения: ASR-модель компании SberDevices GigaAM состоит из 240 млн параметров, в ASR-модели Whisper large-v3 от OpenAI — 1,55 млрд параметров. По оценке «Т-Технологий», Т-one обгоняет большие открытые ASR-модели, GigaAM v2 и Whisper Large-v3, по качеству распознавания на русском в телефонии. 

«Такие модели могут быть интересны и бизнесу, и научному сообществу: размер T-one позволяет запустить модель с ноутбука, и даже с учетом обслуживания, аренды или эксплуатации на своих серверах она обойдется в десятки раз дешевле готовых решений от облачных провайдеров. Например, это могут быть компании, разрабатывающие голосовых роботов и ассистентов, занимающиеся автоматизацией кол-центров. Они могут взять за основу эту модель и адаптировать ее под свои решения. Это позволит сократить ресурсы на разработку с нуля, — рассказал представитель «Т-Технологий». — Для нас это важно, потому что это дает возможность провалидировать наши подходы и улучшить работу модели».

«Расходы на разработку модели составили не более 10 млн рублей», — сообщили в компании. В эту сумму входит стоимость аппаратного обеспечения и фонд оплаты труда сотрудников, участвовавших в проекте. Аналогичная модель уже внедрена в ряде внутренних продуктов Т-Банка, включая службу поддержки, мобильного секретаря в «Т-Мобайле» и инструменты защиты от спам-звонков.

Дальше без Олега

Т-Банк (ранее Тинькофф Банк) развивает речевые технологии с 2016 года. Первым решением был голосовой ассистент «Олег», запущенный в 2019 году и названный так по имени основателя банка Олега Тинькова (признан Минюстом иноагентом). В июне 2024 года «ТКС Холдинг» (прежнее название «Т-Технологий») изменил название Тинькофф Банка на Т-Банк. Ранее в том же году голосовой помощник «Олег» в приложении банка был переименован в секретаря. От использования бренда «Олег» для голосового помощника, по данным Forbes, банк решил отказаться. На смену «Олегу» пришел мобильный секретарь, напомнил представитель «Т-Технологий». Секретарь принимает звонки и делает расшифровку разговора, а также с юмором отвечает спамерам и мошенникам, звонки от которых превышают половину от незнакомых номеров. «В своем троллинге секретарь в том числе ориентируется на контекст», — сообщили в банке. Всего в компании сейчас развивают шесть ИИ-ассистентов, которые закрывают разные пользовательские задачи, от покупки билетов до консультаций по ценным бумагам, добавил представитель «Т-Технологий». Компания также предлагает речевые технологии внешним заказчикам в рамках своей платформы VoiceKit.

Распознавание речи относится к технологиям обработки естественного языка (NLP), напоминает директор департамента контактных центров и роботизированных систем Naumen Сергей Попов. Совокупный рынок NLP-решений в России в 2024 году составил 8 млрд рублей, что превысило показатель 2023 года на 34%. Сегодня автоматическое распознавание речи — это уже не точечная технология, а важный компонент цифровой инфраструктуры эффективного обслуживания клиентов, отмечает он.

«Рынок автоматического распознавания и синтеза речи отдельно также демонстрирует положительную динамику. В 2024 году он достиг объема 680 млн рублей, продемонстрировав рост на 7%, — сообщил Попов. — В структуре рынка диалогового ИИ сегмент занимает 11%, при этом 49% приходится на голосовых роботов — ключевых потребителей технологий ASR и TTS (Text-To-Speech, перевод текста в речь)». Этот рынок в целом перешел из фазы экспериментов в фазу зрелого и масштабного внедрения, отмечает Сергей Попов. По его словам, основные драйверы этих процессов — снижение операционных издержек, ускорение обработки обращений и компенсирование кадрового дефицита в сфере клиентского сервиса.

День открытых дверей

На рынке уже есть ряд решений для распознавания русского языка, говорит технический директор и сооснователь компании CraftTalk Михаил Сбитников. По его словам, коммерческие решения предлагают «Яндекс», Т-Банк, BSS и другие. К примерам open source решений он относит Whisper. «Можно только приветствовать появление новых, более оптимизированных открытых моделей, это стимулирует использование и развитие смежных технологий», — считает Сбитников.

«Здорово, что появляются в open source модели распознавания речи на русском языке — это очень позитивный тренд для всей индустрии. Это дает возможность не только крупным компаниям, но и малому бизнесу, научным учреждениям и энтузиастам создавать инновационные продукты, — согласен старший директор по искусственному интеллекту „Авито“ Андрей Рыбинцев. — Мы в „Авито“ как компании с собственной моделью, обученной на десятках тысяч часов данных, хорошо понимаем, какие ресурсы, экспертиза и инвестиции стоят за такими разработками».

Речевые технологии уже находят применение в самых разных сценариях, отмечает Рыбинцев. «В контактных центрах они помогают быстрее обрабатывать обращения клиентов, а в модерации контента ускоряют выявление потенциальных нарушений. В „Авито“ мы используем речевые модели для защиты пользователей от спама, определения целевых обращений для профессиональных продавцов и маршрутизации запросов через голосовую поддержку», — говорит он.

Российские ИИ-модели по ряду задач на русском языке уже превосходят по качеству зарубежные аналоги, подтверждают в MWS AI (входит в МТС Web Services). «Появление новых моделей, безусловно, будет способствовать дальнейшему развитию рынка, в данном случае речевой аналитики. Открытый доступ к таким моделям позволяет российским пользователям и компаниям тестировать базовые сценарии применения генеративного ИИ без дополнительных инвестиций, работая в закрытом контуре и обеспечивая полную конфиденциальность данных», — поясняют в MWS AI.

MWS AI разрабатывает собственные технологии в сфере речевой аналитики. «На сегодняшний момент в департаменте клиентского сервиса МТС около 60% запросов обрабатывает нейросеть, а операторы-люди решают более сложные задачи», — указывают в компании.

Возможность распознавания речи в реальном времени — важная особенность модели, отмечают в MWS AI. «Сегодня многие компании используют речевую аналитику для оценки качества обслуживания клиентов, но это почти всегда анализ постфактум. Сначала записывают разговоры, затем их анализируют, выявляют ошибки и дают обратную связь — но клиент уже ушел, получив услугу того или иного уровня, — рассуждают в MWS AI. — Мы видим будущее в копайлотах для продавцов, работающих в реальном времени: они подсказывают, как отвечать на вопросы, помогают быстрее находить информацию и мгновенно корректируют процесс обслуживания». Среди других перспективных направлений в компании отметили распознавание эмоций, определение демографических характеристик (пола и возраста), а также выявление ботов и аудиодипфейков для защиты пользователей.

Опенсорс — драйвер развития современных технологий, и ASR не исключение, размышляет руководитель направления автоматического распознавания речи «Яндекса» Евгений Ганкович. По его словам, все больше компаний-разработчиков открывают доступ к своим решениям, ускоряя не только проведение научных исследований и создание новых разработок в области, но и внедрение ИИ в бизнес-процессы.

«Сегодня мы видим разные примеры ИИ-опенсорса — от больших и малых моделей до открытых методологий. Например, научная статья исследователей голосовых технологий „Яндекса“, описывающая принципы работы устойчивой к шуму нейросети, была принята на международную конференцию по речевым технологиям Interspeech 2025 наравне со статьями Microsoft, Google DeepMind, Google AR и т. д. Фактически это подтверждение значимости исследования среди мирового научного сообщества», — обращает внимание Ганкович. Методологию, описанную в статье, «Яндекс» использует и в своих продуктах, отметил он. «Внутри компании большое количество моделей собственной разработки с SOTA-качеством на общем домене по нашим бенчмаркам, — сообщил Евгений Ганкович. — Основные прорывы в ASR-технологиях «Яндекса» связаны с «Алисой». В частности, благодаря развитию ASR-технологий из голосового помощника «Алиса» превратилась в полноценного AI-ассистента, способного решать повседневные задачи пользователей любой сложности, заключил он.

Представитель VK отказался от комментариев, в «Сбере» не ответили на запрос.