Хотя Speech Info нет ещё и года, некоторые итоги у нас уже имеются. Например, мы успели написать вместе с экспертами сотню с лишним разборов, осветить несколько крупных конференций (включая Interspeech и ICASSP) и начать собирать сообщество людей, которым интересна тема голосовых технологий.
В предновогодней публикации хотим вспомнить посты, которые больше всего читали в 2025-м. Если какой-то из них запомнился вам или, по вашему мнению, в топе чего-то не хватает, приходите делиться в комментарии!
Билингвальный ASR — уже в станциях и чате с Алисой
Важный релиз прошедшего года. Евгений Ганкович рассказал, с какими сложностями столкнулись инженеры группы ASR, пока делали Алису двуязычной. Ещё он поделился тем, как команде удалось не только не просадить, но и улучшить распознавание русского. Все подводные камни процесса — в нашем разборе.
Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать
Рассказ о статье Multichannel Keyword Spotting for Noisy Conditions, которую наши исследователи представили на конференции Interspeech 2025 в Роттердаме. Разбираемся, как устроена архитектура KWS, объединяющая мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.
Как Яндекс Браузер переводит видео с сохранением оригинальных голосов
В посте рассказали детали обновлённой версии перевода видео в Яндекс Браузере. В частности, разобрались за счёт чего технология умеет сохранять тембр и интонации оригинального голоса, а сам перевод стал точнее. Приглашаем освежить в памяти.
Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках
В апреле в Индии прошла конференция ICASSP 2025, на которой побывал руководитель группы встроенного голосового ввода Алексей Рак. Интересного хватило на серию постов, самым востребованным из которых стал этот — о двух работах на тему шумоподавлении в наушниках.
WavChat: A Survey of Spoken Dialogue Models. Часть 1/4
Никита Рыжиков
Mamba-модели в задачах Speech Enhancement
Екатерина Кузина разобрала архитектуру Mamba в контексте Speech Enhancement. В посте описан пайплайн модели для таких задач, а также есть наглядное сравнение Mamba-блоков с transformer- и conformer-блоками. Если пропустили пост, зовём наверстывать упущенное.
Как TortoiseTTS изменил правила игры в синтезе речи
Роман Кайль рассказал историю появления TortoiseTTS и то, почему он стал важной вехой для современных TTS-моделей. В посте разбираемся, как комбинация трансформера и диффузии позволила одновременно моделировать интонацию и голос. А ещё — как инженер-одиночка смог собрать рабочую схему на восьми GPU и почему этот подход подхватили большие команды.
Желаем отличных праздников и чтобы интересного чтения хватило на все 12 предстоящих месяцев!
Speech Info