В Сибири создана усовершенствованная система искусственного интеллекта для идентификации русской речи

Опубликовано 14.11.2025

Ученые Новосибирского государственного университета (НГУ) создали усовершенствованную диалоговую систему искусственного интеллекта (ИИ) для распознавания русской речи.Источник: Unsplash

Система прошла дообучение на более чем 500 часах разговорной речи, отметил научный сотрудник лаборатории прикладных цифровых технологий механико-математического факультета НГУ Иван Бондаренко.

По словам ученого, главная проблема существующих распознавателей речи заключается в том, что они воспроизводят услышанную речь в нижнем регистре, без знаков препинания. Нейросеть Whisper OpenAI, на основе которой построена система, может корректно обрабатывать речь, однако плохо адаптирована к русскому языку.

«Мы осуществили интеграцию диалоговой нейронной сети с системой распознавания синтеза речи. Это модель, основанная на Whisper OpenAI, прошедшая глубокую доработку, она была специально дообучена для лучшего понимания общего семантического пространства между языками, в частности, для более устойчивого распознавания русской речи», — сказал он.

Система обучена на более чем 500 часах разговорной русской речи из различных источников, включая синтетические. Авторский подход новосибирских ученых заключается в том, что при нехватке данных для моделирования различных ситуаций они синтезировали их с помощью ИИ. «Мы это делали другими отдельными моделями. То есть, получается, нейросеть обучает другую нейросеть», — пояснил Бондаренко.

Разработчик отметил, что основная область применения системы — это воспроизведение русской речи, а также ее точный перевод на английский. Система была протестирована на записях выступлений ученых и политиков, в том числе математика Алексея Савватеева, корееведа Андрея Ланькова и бывшего главы ЛДПР Владимира Жириновского. По словам Бондаренко, речь воспроизводится с высокой точностью, наибольшие сложности у нейросети вызвала лекция по математике.

В настоящее время время обработки голосового запроса составляет около 40 секунд, однако в ближайшие месяцы ученые НГУ намерены сократить это время до 5 секунд. «У разных языков есть общее семантическое пространство, общие принципы. Если мы обучаем модель так, чтобы эти общие принципы находить, то модель гораздо лучше и устойчивее распознает. В этом заключался наш подход», — подытожил представитель НГУ.

Фото: hi-tech.mail.ru