В Сибири создана усовершенствованная система искусственного интеллекта для идентификации русской речи

Ученые Новосибирского государственного университета (НГУ) создали усовершенствованную диалоговую систему искусственного интеллекта (ИИ) для распознавания русской речи.Искусственный интеллект поможет отделам кадров городских и региональных администрацийИсточник: Unsplash

Система прошла дообучение на более чем 500 часах разговорной речи, отметил научный сотрудник лаборатории прикладных цифровых технологий механико-математического факультета НГУ Иван Бондаренко.

По словам ученого, главная проблема существующих распознавателей речи заключается в том, что они воспроизводят услышанную речь в нижнем регистре, без знаков препинания. Нейросеть Whisper OpenAI, на основе которой построена система, может корректно обрабатывать речь, однако плохо адаптирована к русскому языку.

«Мы осуществили интеграцию диалоговой нейронной сети с системой распознавания синтеза речи. Это модель, основанная на Whisper OpenAI, прошедшая глубокую доработку, она была специально дообучена для лучшего понимания общего семантического пространства между языками, в частности, для более устойчивого распознавания русской речи», — сказал он.

Система обучена на более чем 500 часах разговорной русской речи из различных источников, включая синтетические. Авторский подход новосибирских ученых заключается в том, что при нехватке данных для моделирования различных ситуаций они синтезировали их с помощью ИИ. «Мы это делали другими отдельными моделями. То есть, получается, нейросеть обучает другую нейросеть», — пояснил Бондаренко.

Разработчик отметил, что основная область применения системы — это воспроизведение русской речи, а также ее точный перевод на английский. Система была протестирована на записях выступлений ученых и политиков, в том числе математика Алексея Савватеева, корееведа Андрея Ланькова и бывшего главы ЛДПР Владимира Жириновского. По словам Бондаренко, речь воспроизводится с высокой точностью, наибольшие сложности у нейросети вызвала лекция по математике.

В настоящее время время обработки голосового запроса составляет около 40 секунд, однако в ближайшие месяцы ученые НГУ намерены сократить это время до 5 секунд. «У разных языков есть общее семантическое пространство, общие принципы. Если мы обучаем модель так, чтобы эти общие принципы находить, то модель гораздо лучше и устойчивее распознает. В этом заключался наш подход», — подытожил представитель НГУ.

Фото: hi-tech.mail.ru

Оцените статью
Dfiles.ru
Добавить комментарий