Speech Info — пост #109

🎉Итоги года: посты, которые были на слуху

Хотя Speech Info нет ещё и года, некоторые итоги у нас уже имеются. Например, мы успели написать вместе с экспертами сотню с лишним разборов, осветить несколько крупных конференций (включая Interspeech и ICASSP) и начать собирать сообщество людей, которым интересна тема голосовых технологий.

В предновогодней публикации хотим вспомнить посты, которые больше всего читали в 2025-м. Если какой-то из них запомнился вам или, по вашему мнению, в топе чего-то не хватает, приходите делиться в комментарии!

Билингвальный ASR — уже в станциях и чате с Алисой

Важный релиз прошедшего года. Евгений Ганкович рассказал, с какими сложностями столкнулись инженеры группы ASR, пока делали Алису двуязычной. Ещё он поделился тем, как команде удалось не только не просадить, но и улучшить распознавание русского. Все подводные камни процесса — в нашем разборе.

Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать

Рассказ о статье Multichannel Keyword Spotting for Noisy Conditions, которую наши исследователи представили на конференции Interspeech 2025 в Роттердаме. Разбираемся, как устроена архитектура KWS, объединяющая мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Как Яндекс Браузер переводит видео с сохранением оригинальных голосов

В посте рассказали детали обновлённой версии перевода видео в Яндекс Браузере. В частности, разобрались за счёт чего технология умеет сохранять тембр и интонации оригинального голоса, а сам перевод стал точнее. Приглашаем освежить в памяти.

Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках

В апреле в Индии прошла конференция ICASSP 2025, на которой побывал руководитель группы встроенного голосового ввода Алексей Рак. Интересного хватило на серию постов, самым востребованным из которых стал этот — о двух работах на тему шумоподавлении в наушниках.

WavChat: A Survey of Spoken Dialogue Models. Часть 1/4

Никита Рыжиков ~~превзошёл Толкина~~ написал четырёхчастный пост по следам масштабного обзора разговорных ИИ. Первая часть квадрологии оказалась самой популярной. Как заметил эксперт, несмотря на некоторые самоповторы, эта статья — пока лучшая попытка систематизировать происходящее в мире ALM. Так что приглашаем к чтению. Остальные части: вторая, третья и четвёртая.

Mamba-модели в задачах Speech Enhancement

Екатерина Кузина разобрала архитектуру Mamba в контексте Speech Enhancement. В посте описан пайплайн модели для таких задач, а также есть наглядное сравнение Mamba-блоков с transformer- и conformer-блоками. Если пропустили пост, зовём наверстывать упущенное.

Как TortoiseTTS изменил правила игры в синтезе речи

Роман Кайль рассказал историю появления TortoiseTTS и то, почему он стал важной вехой для современных TTS-моделей. В посте разбираемся, как комбинация трансформера и диффузии позволила одновременно моделировать интонацию и голос. А ещё — как инженер-одиночка смог собрать рабочую схему на восьми GPU и почему этот подход подхватили большие команды.

Желаем отличных праздников и чтобы интересного чтения хватило на все 12 предстоящих месяцев!

Speech Info