Speech Info

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [2/2]

Mon, 30 Mar 2026 07:45:21 +0000

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [2/2]

Продолжаем разбирать статью на тему аудиочаптеринга. В первой части рассказали о специфике задачи, метриках и подходах, которые сравнивают авторы. Переходим к самому интересному — результатам.

Первый аблейшн — качество транскрипта. Сравнивают сегментацию на референсном тексте, Whisper Tiny и Whisper Large. Разница неожиданно небольшая: более качественный ASR не всегда даёт лучшую сегментацию. Модели в основном лучше работают на том типе транскрипта, на котором их обучали. Zero-shot LLM-ки почти не чувствительны к качеству транскрипта, но сильно уступают специализированным моделям, обученным на сегментацию.

Второй аблейшн — аудиофичи для текстовой модели. Добавляют паузы, скорость речи, pitch, громкость, смену спикера. Все фичи вместе дают примерно +19 F1, то есть аудио действительно добавляет сигнал. Но главный вклад даёт длина паузы: добавление остальных фичей почти не меняет результат.

Третий аблейшн — audio-only-модели. Тестируют разные аудиоэнкодеры внутри AudioSeg. Лучше всего работает Whisper, что логично: его эмбеддинги содержат текстовую семантику. Модели для чисто акустических задач (например sound event detection) тоже работают, но хуже.

Отдельно смотрят, на каких сэмплах аудио даёт профит. Модель часто ловит границы по неспичевым сигналам: интро- и аутро-звукам, музыкальным переходам, эффектам. Когда такие сигналы чистят с помощью noise filtering, качество сегментации падает — значит, модель действительно на них опирается.

Про MLLM-ки. Проверяют zero-shot, chunking, in-context learning, self-cascade и LoRA. Базовый zero-shot неожиданно плохой, иногда даже хуже рандома. In-context learning и LoRA помогают, а лучший результат даёт self-cascade: сначала генерируется транскрипт, потом делается сегментация, и лучше всего работает вариант, когда модели дают и транскрипт, и аудио. Но даже так мультимодалки уступают AudioSeg.

Дальше смотрят срезы по длительности аудио. На коротких записях AudioSeg работает лучше остальных, но на длинных (около часа и больше) преимущество постепенно исчезает, и модели показывают похожие результаты.

Похожая история со спикерами. Чем больше говорящих, тем сложнее задача и тем ниже качество. Добавление простых спикерных фичей, например смены спикера, немного помогает текстовой модели.

Последний момент — ограничение постановки. Использующийся протокол T1 расставляет границы с шагом шесть секунд (и такой же шаг используется моделью). Поэтому даже идеальная модель не может быть точнее. Если притянуть реальные границы к этим окнам (oracle-сегментация), получается потолок F1 около 81.

Даниил Волгин ❣ Специально для Speech Info

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [1/2]

Fri, 27 Mar 2026 08:08:01 +0000

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [1/2]

Сегодня начинаем разбирать свежую статью на тему аудиочаптеринга. Задача аудиочаптеринга — разбить запись на смысловые куски (чаптеры), чтобы каждый соответствовал какой-то теме или логическому блоку.

Обычно сначала прогоняют аудио через ASR, получают транскрипт, а потом делают текстовую сегментацию — например, с помощью LLM. Авторы статьи предлагают другой подход: попробовать делать чаптеринг напрямую по аудио, без обязательной опоры на текст.

В работе сравнивают три подхода:
1) классический текстовый чаптеринг;
2) AudioSeg — audio-only-подход, который предлагают авторы;
3) использование мультимодальных моделей.

Задача текстовой сегментации формулируется так. Есть транскрипт, разбитый на предложения. Для каждого предложения нужно предсказать, является ли оно концом чаптера.

Чтобы сравнить предсказания с референсом, предложения сначала алайнятся по времени. Тут есть несколько вариантов:
- по референсному тексту через forced alignment;
- по ASR-транскрипту;
- алайнмент по токенам;
- алайнмент по временному пересечению предложений.

После этого границы можно мапить в тайминги референса и считать метрики. Основные метрики такие:

Pk — смотрим пары предложений и проверяем, правильно ли модель определила, находятся они в одном чаптере или в разных.

Boundary Similarity — что-то вроде редакторского расстояния между последовательностями нулей и единиц, обозначающими границы чаптеров.

Авторы также предлагают временные метрики, которые вообще не используют текст. Есть два варианта:

T1 (time-based discrete) — аудио разбивается на равные чанки. Смотрим, в какие из них попадают референсные и предсказанные границы. Авторы репортят почти все результаты именно по этому протоколу.

T2 (time-based continuous) — уже настоящий вариант с непрерывными таймстемпами. Если предсказанная граница попадает в небольшой интервал вокруг референсной (collar), считаем её true positive и по ним считаем F1.

Подходы

1. Text-Based baseline. Берут предложения из транскрипта, кодируют их sentence encoder’ом, получают эмбеддинги и подают в трансформер (RoFormer). На каждом предложении решается бинарная задача: конец чаптера или нет. К тексту также добавляют аудиофичи: длину пауз, скорость речи, pitch, громкость, смену спикера и т.д. Их конкатенируют с эмбеддингами предложений.

2. AudioSeg — основной метод авторов. Пайплайн состоит трёх уровней: frame encoding, segment encoding и document encoding.

Аудио сначала режут на 30-секундные чанки и прогоняют через замороженный предобученный аудиоэнкодер (например, Whisper). Получаются фреймовые эмбеддинги. Дальше их группируют в 6-секундные окна. Каждое окно обрабатывается трансформером и превращается в один эмбеддинг сегмента.

Получается последовательность сегментных эмбеддингов, которая подаётся в документный трансформер. Он предсказывает, является ли окно концом чаптера.

Во второй части разбора расскажем об аблейшнах и выводах, к которым пришли авторы.

Даниил Волгин ❣ Специально для Speech Info

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

Wed, 18 Mar 2026 11:03:01 +0000

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

Multi-Token Prediction часто рассматривают как способ ускорить генерацию, но кроме этого он может улучшить её качество. Сегодня разберём статью о том, как и почему такой подход одинаково хорошо работает и для LLM, и для аудиомоделей. Для этого упомянём ещё три работы — но обо всём по порядку.

Better & Faster Large Language Models via Multi-token Prediction

Начнём с простого: вспомним, как работает multi-token prediction (MTP). Cамая популярная и цитируемая статья на эту тему вышла в 2024 году.

Её идея очень проста: навесить на тушку (shared) не одну голову (linear-слой), которая предсказывает один токен, а сразу несколько. То есть по первому токену будет генерироваться не второй, а сразу четыре: второй, третий, четвёртый и пятый.

Для реализации авторы использовали self-speculative decoding: выбирали предсказания только с самыми высокими вероятностями. По результатам на бенчмарке MBPP и проверки людьми обнаружилось, что MTP может не только ускорить работу модели, но и улучшить её результаты.

При этом чем больше модель, тем сильнее улучшается качество. Но это работает только на сложных задачах, таких как кодинг. Для trivia-вопросов, которые предполагают односложный ответ (да или нет) не нужно генерить много токенов наперёд.

Так MTP начали использовать не только как ускоритель, но и как auxilary objective для улучшения качества.

DeepSeek-V3 Technical Report

Авторы немного видоизменили MTP: сделали его не параллельным, а последовательным. Во время обучения добавили hidden-слой перед каждой головой-трансформером и конкатенировали его токены с токенами ground truth, уже предсказанными предыдущей головой. На инференсе использовали обычный MTP с уменьшенными трансформерами — и тоже добились не только ускорения, но и повышения качества результатов.

Так как же это всё применимо к TTS?

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

Короткий ответ: хорошо, даже очень.

VocalNet — не совсем TTS, скорее, заалайненная омни-модель. Сетап максимально базовый: претрейн-тушка с приклеенным Whisper-энкодером, который делает аудиоэмбеддинги. Сверху — Speech Vocoder, генерирующий аудиотокены. Потом аудиотокены отправляются в инференс.

Классика, но есть нюанс: Speech Decoder. Именно в него внедрили MTP.

Секрет успеха MTP применительно к задачам генерации речи в соотношении размеров фонемы и токена. Для обычной LLM токен — большая семантическая единица. А при генерации речи в одну фонему входит сразу несколько токенов. И тем, кто занимается TTS, очень хотелось бы научить модели предсказывать не токены, а целые фонемы.

На схеме выше — все подходы, которые перепробовали авторы VocalNet:

(a) — уменьшить размерность и предсказывать по три, а не по четыре токена подряд,
(b) — использовать несколько параллельных линейных голов, как в классическом MTP,
(c) — внедрить головы последовательно, как сделала команда DeepSeek,
(d) — попробовать по-своему: перенять лучшее у DeepSeek, но отказаться от GT, как в MTP. То есть, не спойлерить во время обучения токены, которые должна предсказать нейросеть.

Подход (d) позволил авторам удалось добиться существенного ускорения работы VocalNet, при этом не ухудшив качество.

Predicting the Order of Upcoming Tokens Improves Language Modeling

MTP не всемогущ. Чем больше токенов одновременно генерирует модель, тем нестабильнее objective — уже к 3-5 токену маленькие ошибки приводят к большим лоссам.

Авторы этой статьи предлагают сгладить лосс с помощью auxilary objective: вместо самих токенов предсказывать их порядок. Протестировать метод можно на GitHub.

Александр Цапков ❣ Специально для Speech Info

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

Wed, 11 Mar 2026 11:14:01 +0000

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

Сегодня разбираем статью о том, как бороться с систематическими ошибками псевдолейблинга в ASR.

Аудиоданных разных доменов существует огромное количество, но для конкретных задач (например, редких акцентов) разметки часто нет. Сбор качественных транскрипций стоит дорого и занимает много времени. В таких случаях выходом становится псевдолейблинг: сначала модель обучают на размеченных данных, потом она сама делает псевдолейблы для неразмеченных, а дальше модель дообучают уже на них.

Проблема в том, что псевдолейблинг даёт разметку, далекую от совершенства, — с ошибками и байесами. И если модель учится на этом итеративно, ошибки не исчезают, а накапливаются. В итоге появляются устойчивые паттерны, которые не лечатся простым уменьшением шума или confidence-фильтрацией.

Главный вопрос статьи такой: как уменьшить систематические ошибки псевдолейблинга, если в target-домене вообще нет ground truth?

Идея авторов — использовать task arithmetic. В упрощённом виде это выглядит так:

1. Берём предобученную ASR-модель и файнтюним её на source-домене с настоящей разметкой.
2. Отдельно обучаем модель на псевдолейблах source-домена.
3. Вычитаем параметры одной модели из другой и получаем correction vector — вектор, который описывает, что именно «портит» обучение на псевдолейблах.

Дальше этот correction vector добавляют при адаптации модели на target-домене, где есть только псевдолейблы. Смысл в том, чтобы при дообучении на псевдолейблах модель меньше перенимала их систематические ошибки.

В статье это показывают на примере смены акцентов: target-домен — это акценты, которых не было в source-домене. В экспериментах используют AfriSpeech-200 — датасет, в котором люди из африканских стран на английском языке с заметными акцентами наговаривают тексты на медицинскую и общую тематику.

Также в работе рассматривают вариант метода с subgroup correction. Вместо одного общего correction vector строят отдельные векторы для разных групп спикеров, а затем усредняют их и используют при адаптации модели к target-домену.

Эксперименты проводят через кросс-валидацию по акцентам: часть акцентов используют как source-домен, остальные — как target-домен, и так по всем разбиениям.

В таблице с результатами сравнивают несколько сценариев. Выводы следующие:

- Предобученная модель (zero-shot) на новых акцентах даёт высокий WER.

- Стандартный псевдолейблинг (файнтюн на сгенерированной разметке) значительно улучшает качество, но наследует систематические ошибки учителя.

- Confidence-based filtering (отсев неуверенных предсказаний) даёт лишь небольшой прирост и не решает проблему закрепившихся паттернов ошибок.

- Pseudo2Real показывает существенное снижение WER против обычного псевдолейблинга (до 35% относительного улучшения на Whisper Tiny).

- Pseudo2Real-SC (Subgroup Correction) с кластеризацией спикеров даёт дополнительный прирост качества (в среднем ещё на 4–6%), особенно эффективно исправляя ошибки на самых сложных акцентах (например язык хауса), так как учитывает разнообразие дикторов.

- Topline (обучение на реальной разметке target-домена) — теоретический «потолок» качества. Однако авторы отмечают важный инсайт: на некоторых сложных акцентах и малых моделях Pseudo2Real оказывается даже эффективнее топлайна. Вектор коррекции действует как регуляризация, не давая модели переобучиться, что часто случается при прямом файнтюне на малом объёме реальных данных.

Егор Реутов ❣ Специально для Speech Info

M³V: A Multi-Modal Multi-View Approach for Device-Directed Speech Detection

Thu, 05 Mar 2026 09:06:40 +0000

M³V: A Multi-Modal Multi-View Approach for Device-Directed Speech Detection

В последнее время всё больше исследований посвящено голосовой активации умного ассистента без называния имени (например, «Алиса»). Это позволяет вести более естественный диалог и повышает комфорт пользователя.

Чтобы решить данную задачу, нужна ML-модель для определения, направлена речь в устройство или нет. В Яндексе такую модель называют «интонационным споттером».

Сегодня разберём статью, в которой рассматривается случай умного помощника для автомобиля. Авторы развивают существующую схему двух энкодеров: для звука и для распознанного текста.

При распознавании речи в реальных условиях неизбежны ошибки. Необходимо сбалансировать обучение таким образом, чтобы модель видела и верно, и неверно распознанные пары «текст — речь».

Авторы предлагают использовать дополнительные модальности, а полученный фреймворк называют M³V.

Решается задача бинарной классификации «в девайс или не в девайс». В качестве энкодеров берут GPT-2 для текстовой модальности и Wav2Vec2 для звука. Результаты работы энкодера пулятся вдоль временного измерения для получения представления для всего звука (формула 1).

Результаты работы этих двух энкодеров используются в качестве входов для четырёх разных голов сети:

- чисто звуковой;
- чисто текстовой;
- мультимодальной (конкатенированной);
- выравнивания (обучаемая функция для сближения двух эмбеддингов для получения выравниваний).

Для получения сближённых эмбеддингов обучаются два проецирующих модуля: отдельно для эмбеддингов текста и отдельно — для речи (формула 3).

Проекции обучаются с помощью contrastive loss. То есть для текста и звука i-го элемента батча они учатся быть близкими (по косинусному расстоянию), а для других элементов батча — отстоять далеко.

Получается алайнмент. Contrastive score используется как компонент лосса, а косинусное произведение — как alignment score.

Итоговый лосс состоит из трёх бинарных кросс-энтропий и contrastive loss.

Коэффициенты при лоссах адаптивные. Веса энкодеров не замораживаются. Решение принимается либо по порогам трёх вероятностей и alignment score, либо с помощью SVM.

Обучение проводилось на 340 часах данных (500 тысяч записей) из машины. Тестовый набор — такой же + 560 сложных примеров с плохим распознаванием.

Эксперименты показывают, что предложенный метод позволяет добиться улучшения относительно отдельных компонент по EER даже при использовании датасета с ошибочным ASR.

Павел Мазаев ❣ Специально для Speech Info

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

Tue, 24 Feb 2026 10:51:34 +0000

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

Сегодня обсудим статью о DiTAR — фреймворке авторегрессии, который объединяет языковую модель и диффузионный трансформер для синтеза речи.

Модели Text-to-Speech часто учат на дискретных токенах, но в сочетании с нюансами архитектуры, погрешностью трансформера и декодера это приводит к накоплению ошибок — а значит, затрудняет качественную генерацию непрерывных объектов.

Авторы искали новый способ предсказания непрерывных представлений аудио — и утверждают, что DiTAR значительно повышает эффективность авторегрессии для непрерывных токенов и снижает требования к вычислениям.

Совместив сильные стороны диффузионных трансформеров и больших языковых моделей, авторы:

— разбивают непрерывные представления на патчи,
— обучают каузальный авторегрессионный трансформер делать inter-patch-предсказания,
— bidirectional-диффузионный трансформер, опираясь на эти внутренние представления, делает intra-patch-предсказания.

Рассмотреть архитектуру решения можно на схеме. Каузальному авторегрессионному трансформеру подают на вход набор непрерывных векторов (continuous speech tokens). А потом группируют их в патчи и ужимают в один вектор энкодером, чтобы снизить размерность и ускорить трансформер.

Диффузионный трансформер предсказывает следующий патч по выходам каузального авторегрессионного трансформера. Авторы утверждают, что если хранить историю патчей и подмешивать предыдущие на каждой новой итерации, задача станет ближе к outpainting, что помогает вырастить качество финальной генерации.

Для того чтобы сохранить возможность разнообразного семплирования, авторы добавили температуру в ODE-солвер. В DiTAR температура — момент времени в процессе генерации, когда вводится шум. Она позволяет гибко управлять вариативностью речи (от стабильной дикции до богатых интонаций) без замедления работы модели.

При генерации речи zero-shot DiTAR показывал SoTA-результаты в схожести говорящих и естественности. В следующей своей статье, DiSTAR, они опираются на наработки из этой. Но вместо непрерывных фич моделируют RVQ-токены — модель, несмотря на небольшой размер, показывает хорошие метрики.

Александр Плахин ❣ Специально для Speech Info

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

Thu, 19 Feb 2026 09:36:22 +0000

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

Сегодня разбираем короткую и довольно простую статью о стриминговом Whisper’e. Whisper — это encoder-decoder-модель, и если в стриминге каждый раз прогонять декодер заново на всём аудио, получается слишком дорого. Поэтому авторы предлагают на каждом новом чанке заново прогонять только энкодер, а дальше следить, чтобы декодер не упирался в конец чанка и не начинал угадывать слова неправильно.

Низкий WER degradation

Под WER degradation понимают то, как сильно ухудшается word error rate при переходе от офлайна к стримингу. В таблице выше авторы сравнили разные стратегии: офлайн-бейзлайн, Local Agreement и предложенный метод.

В правом столбце Δ показана средняя деградация — и у нового подхода она самая маленькая: всего 1,46%, то есть качество почти не проседает по сравнению с распознаванием в офлайне.

Почему стриминг ломается на границах чанков

Проблема кроется в архитектуре Whisper. Это Seq2Seq-модель, обученная на полных предложениях. Она всегда стремится выдать законченный, осмысленный текст и не умеет «молчать» или выдавать части слов.

Рассмотрим пример с фразой “Shall we be companions?”, где граница чанка разрезала слово “companions”. Происходит следующее.

1. Акустическая ловушка. Модель получает аудио, которое обрывается на звуке "be com...".

2. Принудительный выбор (Forced Prediction). Модель слышит "be com...". В её словаре токенов (BPE) наиболее вероятным кандидатом для этого звукового паттерна оказывается токен "become". Поскольку модель обучена на завершённых фразах, она стремится «закрыть» акустический паттерн известным ей токеном, вместо того чтобы ждать продолжения (которого в текущем чанке нет).

3. Ошибка токенизации. Как только токен "become" сгенерирован, он становится частью истории. Когда приходит следующий кусок звука "...panions", декодер уже не может отменить предыдущий токен. Пытаясь продолжить текст после "become", декодер подбирает следующий наиболее вероятный токен — "ponies", так как он фонетически похож на входящий звук и хоть как-то согласуется с предыдущим контекстом.

Итог: ошибка возникает из-за того, что модель пытается «додумать» обрезанный край чанка, принимая преждевременное решение, которое потом невозможно исправить.

Решение — метод из двух частей

В статье предлагают подход, в котором одна составляющая определяет, где можно безопасно резать, а другая — когда пора запросить следующий чанк.

1. Truncation Detection Module (TDM), построенный на механизме Integrate-and-Fire (IF). Модель постепенно накапливает некоторую величину по аудиофреймам. Когда накопление превышает порог, происходит “fire” — это считается сигналом, что слово закончилось и здесь можно обрезать. Обучение происходит таким образом, чтобы количество срабатываний совпадало с количеством слов.

2. Attention-Guided Decoding Policy — эта часть выглядит даже более важной. Поскольку Whisper обучался на задаче предсказания таймстемпов (alignment), его карты внимания (attention maps) очень чётко «подсвечивают» тот участок аудио, который соответствует текущему слову. Авторы смотрят, куда «смотрит» модель. Если пик внимания (максимальный вес) приходится на самый конец текущего аудиочанка (последние фреймы), это красный флаг.

- Это значит: «Я пытаюсь декодировать слово, но его аудиопризнаки обрываются на самом интересном месте».
- В этот момент нужно остановить генерацию и ждать следующий чанк.

Результаты

В конце авторы приходят к выводу, что можно сделать стриминговый Whisper, который почти не теряет в качестве, избегает ошибок на границах чанков, работает с меньшей задержкой, чем Local Agreement. Таблица в конце подтверждает, что на больших моделях (Large-v2) метод даёт хороший баланс между скоростью и точностью.

Вилиана Девбунова ❣ Специально для Speech Info

Динамический выбор контекста в аудиомоделях

Wed, 11 Feb 2026 09:01:43 +0000

Динамический выбор контекста в аудиомоделях

Сегодня вспомним о паре любопытных статей с Interspeech 2025, связанных с динамическим выбором промпта из некоторой базы.

Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation

Авторы улучшают качество text-to-audio-генерации для случаев, слабо представленных в обучающем датасете, добавляя conditioning на сэмплы из большой базы неразмеченных аудио. Для выбора примеров из базы используют косинусное расстояние между CLAP-эмбеддингами: на этапе обучения сравнение проводится с эмбеддингом целевого аудио, на инференсе — с эмбеддингом входного текста.

LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs

В работе предлагают метод адаптации предобученной текстовой LLM под решение различных задач с text-audio-входом (текстовая инструкция + входная аудиозапись) и текстовым выходом в мультитаск-формате. Кроме стандартного подхода — кодирования входного аудио предобученным энкодером и обучения адаптера во входной формат текстовой LLM — авторы обучают пул промптов: случайно проинициализированных key-value-пар.

Эмбеддинги входных данных каждого сэмпла — текста и аудио — усредняют для получения query. После чего выбирают топ-k промптов по расстоянию между query и key и добавляют ко входу LLM соответствующие value.

По словам авторов, в отличие от обучения отдельного промпта под каждую задачу, предложенный подход позволяет переносить знания между различными сценариями. В результате модель лучше генерализуется под новые задачи и требует меньшего количества обучающих данных для каждой конкретной. А в отличие от полностью разделяемых параметров, такой подход препятствует переобучению под какие-то из задач или забыванию базовых знаний предобученной модели.

Дарья Петренко ❣ Специально для Speech Info

FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot

Fri, 06 Feb 2026 07:53:21 +0000

FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot

Сегодня разберём статью, авторы которой пытаются решить задачу multi-speaker-генерации длинных диалогов, например для подкастов и чат-ботов.

Во-первых, в работе предлагают новый стриминговый speech tokenizer с частотой 12,5 Hz (12,5 токена/сек), чтобы тянуть длинные последовательности. Обычно используют токенизаторы с частотой около 25 Hz, а здесь её снижают — как раз чтобы упростить работу с длинными диалогами.

Во-вторых, для моделирования multi-layer speech-токенов используют подход dual-transformer: большой decoder-only-трансформер предсказывает токены первого уровня, а маленький трансформер быстро достраивает остальные.

Архитектура

В speech tokenizer объединяют два источника информации: акустику и семантику из Whisper (его энкодер заморожен). Их приводят к одному пространству и кодируют в RVQ-токены, чтобы в каждом была и семантическая, и акустическая информация.

Поверх этого работает TTS-модель: на вход подаются speaker + text + speech tokens. Трансформер сначала предсказывает токен первого уровня, а затем маленький декодер достраивает остальные уровни. После этого полный набор RVQ-токенов превращается обратно в финальный speech.

Как обучают speech tokenizer

Обучение проходит в две стадии. На претрейне используют reconstruction loss и дополнительные лоссы для RVQ и семантики, а также perceptual loss через WavLM для сравнения фичей реконструкции и оригинала.

На этапе посттрейна семантический декодер убирают, акустический заменяют на стриминговую версию (24 kHz), и дообучают уже с reconstruction + GAN loss на более чистых данных.

По WER токенизатор показывает лучший результат среди моделей с таким низким frame rate, хотя по MOS уступает некоторым решениям вроде XCodec2.

Сценарии использования

1) Voice cloning

Модель может воспроизводить голос по промпту. Разборчивость речи получается хорошей, но вот похожесть на оригинальный голос — хуже, чем у лидеров. Авторы говорят, что voice cloning — не главный фокус работы.

2) Диалоговый чат с эмоциями

Для этого сценария собрали 15 часов эмоциональной речи, записанных одной женщиной (6 эмоций), и дообучили модель так, чтобы она могла отвечать с нужной интонацией. Эмоции затем проверяли вручную — точность получилась высокой. Правда, остаётся вопрос, насколько хорошо такая модель умеет говорить нейтрально.

3) Генерация подкастов

Авторы сделали набор английских и китайских подкастовых разговоров, которые показывают, что модель может генерировать диалоги длиной до трёх минут и поддерживать несколько говорящих. Сравнивают по MOS и другим метрикам, и отдельно делают side-by-side с реальными записями. Говорят, что примерно в 28% случаев их результат можно перепутать с настоящими диалогами.

Максим Борисов ❣ Специально для Speech Info

TTS-1 Technical Report. 2/2

Wed, 28 Jan 2026 10:02:21 +0000

TTS-1 Technical Report. 2/2

Продолжаем рассказ о техрепотре свежего TTS-движка американского стартапа Inworld.

SFT: что сработало, а что нет

После pretrain-стадии авторы переходят к SFT и алайнменту. На SFT используют около 200 тысяч часов транскрибированных данных. Для фильтрации отбрасывают 20% худших сэмплов по DNS-MOS, 5% самых быстрых и 5% самых медленных по символам в секунду, плюс применяются текстовые эвристики для удаления плохих транскрипций.

Авторы утверждают, что для качества синтеза было важно инициализировать learning rate для SFT финальным значением после стадии pretrain. Попытка подмешать text-based instruction-following данные, чтобы лучше понимать сложные промпты, привела к ухудшению стабильности синтеза, несмотря на отсутствие деградации лосса на аудиоданных. Ещё в работе есть аблейшн, который показал, что стартовать SFT с speech-pretrained LM заметно лучше, чем с LLaMA-3.2-1B-Instruct — и лоссу, и по метрикам WER и SIM.

RL-алайнмент и разметка стилей

Для алайнмента используют RL с GRPO, так как даже после SFT остаются клики, артефакты и ошибки произношения. GRPO позволяет оценивать несколько ответов на один и тот же запрос относительно среднего по группе, что даёт более стабильное обучение. Используется композитный реворд, включающий WER, similarity и DNS-MOS, а также отдельные награды для аудиотегов. WER считают с помощью Whisper-large-v3, similarity — через WavLM-Large. Утверждают, что единая модель с композитным ревордом работает лучше, чем модели, обученные под каждую метрику отдельно. В качестве аргумента приводят только графики GRPO.

Отдельный блок отведён стилям и невербальным эффектам. Попытка просто конкатенировать style-tag и текст не сработала — авторы объясняют это тем, что кодек смешивает семантическое и акустическое пространства, и стиль сложно изолировать от голосовых характеристик. Решением стал парный датасет: нейтральные и стилизованные высказывания одного и того же спикера, склеенные паузой 0,5–1,5 секунды, с использованием тега как разделителя. На один нейтральный сэмпл приходится от одного до пяти стилизованных, около 20% данных содержат невербальные вокализации, а примерно 30% — непарные нейтральные примеры для сохранения базового синтеза.

В оценке качества приходят к тому, что увеличение размера модели улучшает similarity и стабилизирует WER, а RL-алайнмент даёт прирост на коротких, средних и длинных сэмплах. Что интересно, на внутренней TTS-арене побеждают всех конкурентов, например, TTS-1-Max имеет win-rate 59,1% против 11Labs.

Инференс

Модели имеют два режима: мгновенный voice cloning по референсу и транскрипту и профессиональный voice cloning с LoRA-дообучением SpeechLM. Для стриминга сделана аккуратная склейка сегментов по участкам тишины, чтобы избежать щелчков, а также стабилизация громкости за счёт дополнительного контекста в аудиодекодере. Inworld вместе с Inference платформой Modular ускорил API за счёт асинхронного планировщика, батчинга в декодере, sparse-формата для penalty sampling и кастомных GPU-ядер на Mojo в составе MAX pipeline. Это даёт первые две секунды синтезированного аудио в среднем на 70% быстрее, чем через vLLM.

Какие есть проблемы

В конце авторы честно говорят и об ограничениях. Кэширование референса помогает снизить задержки, но может подтягивать стиль и эмоции из референсного аудио. Длинные последовательности хуже генерируются при коротких промптах, а параметры декодинга постоянно приходится балансировать между сходством с голосом и выразительностью. В целом, получилась довольно инженерная работа о том, как стартап оптимизирует качество, задержки и стоимость — без архитектурных откровений, но с массой практических деталей.

Владимир Гогорян ❣ Специально для Speech Info

TTS-1 Technical Report. 1/2

Thu, 22 Jan 2026 09:39:42 +0000

TTS-1 Technical Report. 1/2

Сегодня начинаем разбирать техрепорт TTS-1 от стартапа Inworld, представившего собственный движок синтеза и довольно подробный отчёт о нём.

С архитектурной точки зрения решение можно описать как «yet another SpeechLM», но с большим количеством инженерии. Есть аудиокодек, есть языковая модель, которая генерирует токены, и есть декодер, который восстанавливает аудио. Но, как обычно, дьявол скрыт в деталях — и ими авторы довольно открыто делятся.

Что под капотом

В качестве кодека используется X-Codec 2 с super-resolution-декодером до 48 кГц. Причины выбора простые: кодек опенсорсный, его удобно адаптировать под стриминг, он сильно экономит хранение и обработку данных. Например, один час моноаудио 48 кГц в сыром виде занимает около 365 МБ, тогда как токенизированное представление с кодбуком на 65 536 токенов — всего около 0,19 МБ при хранении в uint16. Для стартапа это большой плюс.

Кодек переобучали полностью на 110 тысячах часов собственных данных. Помимо модифицированного декодера архитектура осталась стандартной: энкодер на базе Wav2Vec-BERT с ResNet-блоками, декодер Vocos, квантизация FSQ, Multi-Period и Multi-STFT дискриминаторы. Из необычного — дополнительный RMS-лосс, который ввели для борьбы с неконсистентной громкостью на склейках и в high-pitch-сегментах, что особенно проявлялось в стриминговом режиме.

Апсемплинг до 48 кГц

Повышение разрешения аудио из 16 кГц в 48 кГц сделано через двухэтапный uptraining: сначала на данных с native sample rate ≥32 кГц, затем дополнительный fine-tuning на аудио ≥44.1 кГц. За счёт подбора страйдов и hop-length в декодере такой апсемплинг почти не влияет на скорость и сложность обучения и, по словам авторов, даже даёт выигрыш по DNS-MOS.

SpeechLM

Поверх кодека — SpeechLM. В TTS-1 используется LLaMA-3.2 на 1,6B параметров, а в версии TTS-1 Max — LLaMA-3.1 на 8,8B. Общий словарь объединяет текстовые токены, 65 тысяч аудиотокенов и специальные токены, включая теги эмоций и невербальных вокализаций.

На этапе претрена к аудиоданным подмешивается около 20 миллиардов текстовых токенов из RedPajama-v2 и instruction-данных LAION OIG, чтобы сохранить текстовое понимание. Обучались модели с bfloat16, flash attention 2 и fused AdamW. Для распределенного обучения младшая версия использовала DDP, а старшая FSDP и torch.compile. Один полный прогон претрена занял около двух дней для маленькой модели и около 10 дней для большой.

Во второй части поста расскажем про SFT, RL и инженерию деплоя в TTS-1.

Владимир Гогорян ❣ Специально для Speech Info

Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 2

Thu, 15 Jan 2026 10:43:01 +0000

Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 2

Настраиваемся на конец рабочей недели и вспоминаем ещё несколько полезных статей прошедшего года. Выбрали и прокомментировали их авторы нашего канала.

CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training

В работе представлена новая версия модели CosyVoice для zero-shot-синтеза речи. Ключевые улучшения:
1) новый речевой токенизатор — использует FSQ (25 ток./с) и обучается на основе LM MinMo с помощью многозадачного обучения (ASR, SER, AED, LID, SID);
2) дифференцируемая оптимизация награды (DiffRO) — новый подход для дообучения моделей синтеза речи на основе LLM, который позволяет напрямую оптимизировать речевые токены;
3) масштабирование данных (до 1 млн часов, 9 языков, 18 китайских диалектов) и модели (с 0,5B до 1,5B параметров).
CosyVoice 3 показывает существенное улучшение по сравнению с предыдущей версией, а также покрывает больше языков. Недавно авторы выложили в открытый доступ модель CosyVoice3-0.5B.

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

IndexTTS2 — авторегрессионная zero-shot TTS-модель, которая решает две ключевые задачи: контроль длительности и разделение управления между идентичностью спикера и эмоцией. Длительность можно задавать явно, подавая в LM число токенов, которые нужно сгенерировать. А использование GRL при обучении для отделения эмоциональных признаков от идентичности спикера позволяет применять два промпта: один для стиля, второй — для тембра. Также предложен способ управления эмоцией по текстовому промпту: знания дистиллируют из DeepSeek-R1, чтобы по тексту предсказывать распределение по семи базовым эмоциям в меньшую LM-модель. На инференсе эмбеддинг эмоции вычисляется как взвешенная сумма фиксированных эмбеддингов, полученных из аудиопримеров для каждой базовой эмоции.

Adaptive Knowledge Distillation for Device-Directed Speech Detection

В Apple предлагают детектить обращение к устройству без триггерной фразы — по одной интонации, но с ограничениями (например, режим включается только вскоре после взаимодействия с девайсом), чтобы не ловить лишние срабатывания. Обучают небольшой on-device-энкодер сразу на три задачи: Hey Siri, Siri и интонационную активацию, а качество подтягивают через дистилляцию из замороженного ASR-энкодера на всех уровнях модели. Вывод простой: такая дистилляция заметно улучшает качество, а общий энкодер на несколько триггеров помогает всем задачам. По словам авторов, в телефонах это уже работает, а на колонках пока сложнее из-за данных и краевых случаев.

Статьи отобрали ❣ Дмитрий Попов, Борис Шелудько
Speech Info

Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 1

Tue, 13 Jan 2026 10:39:01 +0000

Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 1

За прошедший год накопилось много интересных работ на тему голосовых технологий. Статьями, которые стоит перечитать и сохранить, поделились эксперты нашего канала. Продолжать список можно ~~бесконечно~~ в комментариях.

Beyond Transcription: Mechanistic Interpretability in ASR

Статья переносит mechinterp-инструментарий из NLP в ASR, делая это системно и на крупных моделях (Whisper-large-v3 и Qwen2-Audio). Авторы адаптируют logit lens, линейные пробы и activation patching под ASR и вводят новый метод Encoder Lens для «развертывания» промежуточных представлений энкодера в текст. Благодаря этому получается показать ряд не описанных ранее явлений (наличие неявной информации в энкодере; возможность предсказывать галлюцинации по residual декодера; механизм повторения токенов в self-attention).

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

Авторы предлагают метод delayed fusion для интеграции LLM в первый проход декодирования ASR, который принципиально отличается от классических shallow fusion и N-best rescoring тем, что:
1) применяет LLM‑оценки к гипотезам с задержкой и после прунинга в ходе поиска, тем самым резко сокращая число оцениваемых гипотез и LLM-вызовов при сохранении влияния LLM уже на первом проходе;
2) позволяет на лету ретокенизировать гипотезы по словесным границам и тем самым без переобучения использовать LLM с другой лексикой/токенизацией, тогда как стандартный shallow fusion требует совпадения словаря ASR и LM или дорогостоящего дообучения;
3) вводит настраиваемый механизм управления моментом вызова LLM (стратегии shortest-hypothesis fusion и fixed-interval fusion).

Music Flamingo: Scaling Music Understanding in Audio Language Models

Статья о новой ALM, специально заточенной под глубокое понимание музыки, включая вокальные композиции. Основные вклады авторов — создание масштабных датасетов MF-Skills и MF-Think с многоуровневыми описаниями и цепочками рассуждений, основанными на теории музыки, а также предложение поэтапного подхода к обучению, сочетающего дообучение на мультиязычных ASR-данных, тонкую настройку на музыкальных задачах и RL-стадию с GRPO.

Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering

Работа о стриминговой диаризации: модель в реальном времени получает аудио и сразу выдаёт вероятности по спикерам, без классического каскада «сегментация → эмбеддинги → кластеризация». Ключевая идея — держать кэш эмбеддингов уже встреченных спикеров и подавать его вместе с текущим аудиофрагментом, постоянно обновляя (спикеры в кэше упорядочены по времени появления). Ограничение простое: число спикеров фиксировано архитектурно — модель нельзя безболезненно перенести на сильно большее количество, чем было на обучении. Зато на нескольких датасетах она обгоняет бейзлайны и прошлую офлайн-версию, оставаясь пригодной для реалтайм-сценариев.

Продолжение следует.

Статьи отобрали ❣ Екатерина Козлова, Борис Шелудько
Speech Info

🎉Итоги года: посты, которые были на слуху

Tue, 30 Dec 2025 09:33:44 +0000

🎉Итоги года: посты, которые были на слуху

Хотя Speech Info нет ещё и года, некоторые итоги у нас уже имеются. Например, мы успели написать вместе с экспертами сотню с лишним разборов, осветить несколько крупных конференций (включая Interspeech и ICASSP) и начать собирать сообщество людей, которым интересна тема голосовых технологий.

В предновогодней публикации хотим вспомнить посты, которые больше всего читали в 2025-м. Если какой-то из них запомнился вам или, по вашему мнению, в топе чего-то не хватает, приходите делиться в комментарии!

Билингвальный ASR — уже в станциях и чате с Алисой

Важный релиз прошедшего года. Евгений Ганкович рассказал, с какими сложностями столкнулись инженеры группы ASR, пока делали Алису двуязычной. Ещё он поделился тем, как команде удалось не только не просадить, но и улучшить распознавание русского. Все подводные камни процесса — в нашем разборе.

Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать

Рассказ о статье Multichannel Keyword Spotting for Noisy Conditions, которую наши исследователи представили на конференции Interspeech 2025 в Роттердаме. Разбираемся, как устроена архитектура KWS, объединяющая мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Как Яндекс Браузер переводит видео с сохранением оригинальных голосов

В посте рассказали детали обновлённой версии перевода видео в Яндекс Браузере. В частности, разобрались за счёт чего технология умеет сохранять тембр и интонации оригинального голоса, а сам перевод стал точнее. Приглашаем освежить в памяти.

Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках

В апреле в Индии прошла конференция ICASSP 2025, на которой побывал руководитель группы встроенного голосового ввода Алексей Рак. Интересного хватило на серию постов, самым востребованным из которых стал этот — о двух работах на тему шумоподавлении в наушниках.

WavChat: A Survey of Spoken Dialogue Models. Часть 1/4

Никита Рыжиков ~~превзошёл Толкина~~ написал четырёхчастный пост по следам масштабного обзора разговорных ИИ. Первая часть квадрологии оказалась самой популярной. Как заметил эксперт, несмотря на некоторые самоповторы, эта статья — пока лучшая попытка систематизировать происходящее в мире ALM. Так что приглашаем к чтению. Остальные части: вторая, третья и четвёртая.

Mamba-модели в задачах Speech Enhancement

Екатерина Кузина разобрала архитектуру Mamba в контексте Speech Enhancement. В посте описан пайплайн модели для таких задач, а также есть наглядное сравнение Mamba-блоков с transformer- и conformer-блоками. Если пропустили пост, зовём наверстывать упущенное.

Как TortoiseTTS изменил правила игры в синтезе речи

Роман Кайль рассказал историю появления TortoiseTTS и то, почему он стал важной вехой для современных TTS-моделей. В посте разбираемся, как комбинация трансформера и диффузии позволила одновременно моделировать интонацию и голос. А ещё — как инженер-одиночка смог собрать рабочую схему на восьми GPU и почему этот подход подхватили большие команды.

Желаем отличных праздников и чтобы интересного чтения хватило на все 12 предстоящих месяцев!

Speech Info

Три идеи на тему обучения speech-моделей

Tue, 23 Dec 2025 09:41:29 +0000

Три идеи на тему обучения speech-моделей

Сегодня делимся подборкой трёх концептуально интересных работ про обучение speech-моделей. Первая — о контроле генерации на этапе декодирования, две остальные — о том, как аккуратнее стыковать речь и текст и обучать мультимодальные системы.

Length Aware Speech Translation for Video Dubbing

Авторы решают понятную боль: как управлять длиной выходной последовательности (перевода), а не полагаться на эвристики поверх beam search (например, штрафы/нормализации за длину). Нюанс таких эвристик в том, что они часто смещают ранжирование в сторону более коротких или более длинных гипотез.

В статье предлагают разбить генерацию на несколько режимов длины: short, normal, long. Вместо стандартного стартового токена (BOS/SOS) декодирование начинается со специального length-тега, и при обучении модель видит такие же теги — в итоге можно явно попросить «короткий» или «длинный» перевод.

Отдельно авторы модифицируют beam search: обычно на шаге прунинга оставляют top-k гипотез по скору. А тут при каждом прунинге стараются сохранять минимум по одной гипотезе каждого типа. Это важно для случаев, когда «длинная» ветка обычно не доживает до конца: модель быстро завершает декодирование на коротких вариантах, а потом может выясниться, что более длинный — был бы лучше.

Очевидный минус подхода: поддержка длинных гипотез — это дополнительные затраты по производительности, потому что генерация идёт дольше. Но сама идея «контролируем длину явно и держим разные длины в beam search» выглядит практичной.

Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs

Предположим, у нас есть текстовая LLM, и мы хотим научить систему работать и со звуком. Лобовой вариант — сразу добавить аудио в обучение и перейти в speech-режим. Но такой переход получается слишком резким: до этого модель обучалась только на тексте, а теперь получает аудиопредставления, и на этом стыке всё легко может развалиться.

Чтобы этого избежать, текст обычно не убирают сразу, а продолжают подавать его вместе с аудио, постепенно меняя пропорции: сначала почти один текст и немного аудио, потом аудио становится больше, текста меньше — и так далее, вплоть до режима «почти только аудио».

Здесь авторы пошли ещё дальше и делают это не на уровне целых примеров, а внутри одного сэмпла: часть токенов — текстовые, часть — аудио. За счёт этого переход получается ещё мягче: сначала в сэмпле почти один текст и немного аудио, потом аудио всё больше. В конце для таких смешанных примеров остаётся только аудио, а также чисто текстовые примеры.

Text-Enhanced Audio Encoder for Large Language Model based Speech Recognition via Cross-Modality Pre-training with Unpaired Audio-Text Data

Можно отдельно обучать аудиоэнкодер и отдельно — языковую модель, но дальше аудиочасть и LLM всё равно нужно «поженить». Авторы хотят сделать этот стык более гладким: чтобы при совмещении ничего не развалилось и текстовая часть LLM не деградировала.

Логика такая: выход аудиоветки дальше подаётся на вход LLM. Авторам важно, чтобы этот вход по форме и свойствам был ближе к тому, к чему LLM привыкла в текстовом режиме. Поэтому они добавляют отдельную текстовую ветку и общую часть — shared transformer blocks. Эти общие блоки обучаются на текстовом сигнале, за счёт этого выходы аудио- и текстовой веток становятся ближе по представлению, так что LLM проще работать с аудиовыходом.

Новизна тут скорее в подходе к обучению: вместо полностью раздельной тренировки (когда батчи идут либо аудио-, либо текстовые) в работе допускают совместное использование аудио и текста в одном батче — и за счёт этого обучение получается более стабильным.

Евгений Ганкович ❣ Специально для Speech Info

VibeVoice Technical Report

Wed, 17 Dec 2025 10:46:32 +0000

VibeVoice Technical Report

Сегодня разберём статью о новой модели VibeVoice, которая с помощью next-token-диффузии синтезирует длинную речь от лица нескольких спикеров.

Авторы во многом ссылаются на свою предыдущую работу Multimodal Latent Language Modeling with Next-Token Diffusion, но там речь идёт совсем не о natural speech. Два главных преимущества их новой разработки:

— Трансформер, который используется в модели, предсказывает не дискретные токены, а латенты.
— VibeVoice может генерировать аудио длительностью до полутора часов.

Модель принимает на вход голосовые промпты и текстовые описания. Для того чтобы она лучше понимала контекст, авторы применяют два вида токенизации:

— Для дискретных токенов — look-up-table (кодбук, который из токена делает представление). Лосс кросс-энтропийный, получают сэмплированием.
— А для непрерывных данных берут 𝜎-VAE-энкодер, который предсказывает что-то похожее на векторные представления. Лосс — L2-диффузионный.

Диффузионная голова обучается end2end вместе с трансформером — предсказывает вход для VAE по последнему латенту трансформера.

Новая система токенизации сохраняет точность воспроизведения звука и значительно повышает эффективность вычислений при обработке длинных последовательностей. Непрерывность токенов позволяет уменьшить их количество до 7,5 на секунду. Сжатие данных, по сравнению с популярной моделью EnCodec, улучшается в 80 раз.

Посмотреть код и послушать демо можно на GitHub команды.

Евгений Шабалин ❣ Специально для Speech Info

Три статьи о новых подходах к обработке речи

Wed, 10 Dec 2025 08:28:01 +0000

Три статьи о новых подходах к обработке речи

Активация устройства без специального слова, новая архитектура для верификации спикера и необычный подход к оптимизации памяти — сегодня разберём несколько идей о том, как работать с речью.

Adaptive Knowledge Distillation for Device-Directed Speech Detection

Интонационный споттер от Apple — модель на 5 млн параметров, которая способна по интонации понимать, когда человек обращается к колонке. Авторы утверждают, что она уже используется на некоторых смартфонах. Сейчас в работе версия для колонок, но пока они столкнулись с проблемой в данных, которую не описывают подробно. Можно предположить, что проблема в более сложной акустике.

Модель обучена на нескольких сотнях тысяч размеченных сэмплов и дополнительных псевдолейблах. Авторы одновременно учат и инферят общую тушку для трёх споттеров: Hey Siri, Siri и интонационного. По их словам, это позволяет существенно увеличить качество модели на всех трёх задачах.

Ещё очень помогает трёхуровневая дистилляция с ASR. Ученик — конформер. Сверху три адаптера для споттеров, а учитель — ASR на 80 млн параметров, 12 conformer-слоёв и энкодер.

MASV: Speaker Verification With Global And Local Context Mamba

Технология верификации голоса для смарт-очков от Meta* — стриминговая модель MASV, новая архитектура, в которой блоки ECAPA-TDNN дополняются Mamba-модулем. Такая комбинация позволяет учитывать и локальные, и глобальные зависимости, но остаётся достаточно лёгкой для того, чтобы работать на устройствах с ограниченными ресурсами и с длинными аудиовходами.

Модель оценивали на внутренних данных: в студийных условиях записали около 5 млн высказываний от 30 тысяч человек. Датасет получился действительно большим, качество предложенной модели на нём выглядит высоким. Но без оценки на реальных пользовательских сценариях для смарт-очков результаты могут оказаться нерепрезентативными: студийная запись на один микрофон не отражает типичные режимы работы устройства.

Unfolding A Few Structures for The Many: Memory-Efficient Compression of Conformer and Speech Foundation Models

Необычный подход к оптимизации памяти, которую модель потребляет во время инференса. Вместо того чтобы хранить десятки отдельных слоёв, авторы обучают небольшой трансформер с несколькими блоками так, чтобы одни и те же слои можно было последовательно использовать несколько раз. На инференсе это даёт логически более глубокую сеть без добавления новых параметров.

Большую модель и её варианты с разной логической глубиной тренируют совместно в одном цикле. Чтобы выровнять их поведение друг относительно друга, авторы добавляют самодистилляцию: минимизируют KL-дивергенцию между самой глубокой и самой короткой конфигурациями.

Качество компактной модели заметно уступает исходной глубокой архитектуре. Но при логическом дублировании слоёв (многократном прохождении через одни и те же блоки), сжатая модель практически догоняет большую, при этом потребляя меньше памяти.

Борис Шелудько ❣ Специально для Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.

BFA: Real-time Multilingual Text-to-Speech Forced Alignment

Tue, 02 Dec 2025 10:51:50 +0000

BFA: Real-time Multilingual Text-to-Speech Forced Alignment

Сегодня разберём статью о Bournemouth Forced Aligner (BFA) — достойном преемнике знаменитого Montreal Forced Aligner (MFA).

Forced Alignment — это процедура определения временных границ фонем в аудио. Долгое время популярным решением был точный, но медленный MFA на HMM-GMM. Современные нейросетевые решения, вроде WhisperX, быстрее, но часто уступают старичку MFA в качестве. Приходится выбирать: либо скорость, либо точность. Новая статья о BFA предлагает решение этой проблемы.

Что под капотом

1. Contextless Universal Phoneme Encoder (CUPE). Энкодер анализирует акустику каждого фрейма «без контекста», то есть независимо от соседних фонем. Это ключевое отличие от классических моделей, использующих трифоны, и одна из главных причин прироста скорости. Универсальность достигается за счёт обучения на широком наборе фонем из разных языков (LibriSpeech, MLS), что позволяет модели отлично обобщаться. Авторы показали, что модель, обученная на семи европейских языках (без английского), успешно справляется с выравниванием английской речи.

2. CTC-декодер. CTC-алгоритм выравнивает последовательность фонем относительно аудио, но авторы модифицировали его для forced alignment. Целевая последовательность для декодера строится как [blank, p1, blank, p2, ...]. Эти blank-токены между фонемами используются для явного моделирования пауз и межфонемных промежутков.

3. Multi-task-обучение. Используется архитектура с двумя головами: одна для 67 классов фонем, другая для 17 укрупнённых фонемных групп.

Что это даёт на практике

Предсказание onset и offset. Это главная фишка. BFA предсказывает не только начало, но и конец каждой фонемы, что позволяет моделировать межфонемные паузы в отличие от традиционных алайнеров.

Отличная скорость. За счёт бесконтекстной архитектуры BFA работает до 240 раз быстрее MFA. Например, обработка корпуса Buckeye занимает 1 час против 7 дней у MFA.

Умный декодинг. Система использует иерархический подход (divide-and-conquer), разбивая аудио по найденным паузам на независимые сегменты и выравнивая каждый отдельно. Специальный постпроцессинг гарантирует, что 100% фонем из транскрипции будут найдены и расставлены в аудио.

Что по метрикам

Recall у BFA сопоставим с MFA, особенно на разумных порогах в 40–60 мс. Precision получился чуть ниже, но авторы заявляют, что это ожидаемый эффект: BFA предсказывает вдвое больше границ (onset + offset), а сравнивается с эталонной разметкой, где есть только onset.

И да, название BFA выбрано не случайно: авторы продолжают традицию называть форс-алайнеры в честь города или университета, где над ними ведётся основная работа. Так Montreal Forced Aligner был связан с Монреалем, а Bournemouth Forced Aligner назван в честь Борнмута.

Владимир Гогорян ❣ Специально для Speech Info

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [2/2]

Thu, 27 Nov 2025 08:17:01 +0000

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [2/2]

Во второй части обзора статьи мы подробно поговорим о тренировке модели и разберём разницу между implicit и explicit learning.

Обучение модели

Обучение модели можно разделить на два больших этапа — modality-specific и omni-modal части соответственно, LLM-backbone при этом берётся предобученная (авторы используют Qwen2.5-7B-Instruct).

Обучение vision-модулей состоит из следующих стадий:

- Stage 1: Vision Projector Alignment — учится только vision-проектор, решается задача генерации простых описаний.
- Stage 2: Vision Encoder Alignment — учатся vision-энкодер и vision-проектор.
- Stage 3: Vision Pre-training — core-стадия, vision-энкодер заморожен, цель — finetune vision-проектора и LLM. Используются мультимодальные данные, модель учится интерпретировать и генерировать подписи к картинкам.
- Stage 4: Image Instruction Tuning — finetune модели на задачи vision instruction following: ответы на общие и knowledge-based-вопросы, генерация сложных подписей, logical и vision reasoning, интерпретация документов, обработка диаграмм, etc. Учатся все модули.
- Stage 5: Video Instruction Tuning — финальная стадия, все части модели учатся на задачу понимания видео (распознавание активности (activity recognition); трекинг объекта во времени (по фреймам), time-sensitive QA). Цель — получить у модели способность к temporal reasoning.

После vision-этапа авторы получают «vision preliminary checkpoint» — достаточно хорошо обученные на vision-задачи энкодер, проектор и LLM.

Обучение аудиомодулей делится на две стадии:

- Stage 1: Audio Projector & Encoder Alignment. Параметры LLM и vision-части заморожены, учимся на задачи audio-based QA, captioning, ASR. Цель — обучить проектор аудиопредставлениям, согласованным с семантическим пространством языковой модели.
- Stage 2: Audio Instruction Tuning: параметры LLM не заморожены, LLM учится вместе с аудиоэнкодером и аудиопроектором. Учимся на все те же задачи + на задачу перевода речи; идея стадии в том, что разнообразные аудиальные задачи при обученном проекторе помогут аудиоэнкодеру выучить и низкоуровневые акустические признаки, и высокоуровневые семантические представления.

Omni-Modal Joint Training

Во время мультимодального этапа обучения vision- и аудиоэнкодеры заморожены, учатся все остальные модули (OmniAlignNet, проекторы и LLM). В статье описываются два подхода: implicit и explicit learning. Implicit learning использует существующие датасеты Video QA, где модель неявно учится интегрировать обе модальности, не получая однозначной информации о том, какая часть ответа взята из видеоряда, а какая — из звука. Explicit learning использует синтетические данные, в которых указывается взаимосвязь между модальностями. Главная разработка авторов — data engine, генерирующий отдельные описания для видео и аудио, а затем использующий LLM с ризонингом (Deepseek R1) для создания объединенных подписей, указывающих на то, как визуальная и аудиальная информация дополняют друг друга. Проблема, которую решает этот подход — устранение «modality-specific hallucination» (fig 1). Ключевой вывод мультимодальной стадии: описание видео, основанное на одной модальности, часто неточно; интеграция обеих модальностей критична, и explicit learning эффективно решает эту задачу (fig 2).

Финальная стадия обучения включает RL с использованием GRPO. Важный результат: GRPO на audio-visual-данных сходится быстрее и качественнее, чем на чисто визуальных, что подтверждает ценность мультимодального подхода (fig 3).

Заключение

В статье OmniVinci представлен комплексный подход к созданию мультимодальных языковых моделей, включающий архитектурные инновации и продуманную стратегию обучения с разделением на modality-specific- и omni-modal-этапы. Ключевой вклад — систематическое исследование подходов к мультимодальному обучению. Авторы демонстрируют, что explicit learning с синтетическими данными эффективнее решает проблему modality-specific hallucination и улучшает общее качество модели.

Екатерина Козлова ❣ Специально для Speech Info

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [1/2]

Wed, 19 Nov 2025 10:19:17 +0000

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [1/2]

Сегодня начинаем разбирать статью, представляющую OmniVinci — мультимодальную LLM от Nvidia, сравнимую по качеству с SOTA-моделями на бенчмарках всех модальностей. Главным вкладом своей работы авторы считают не столько численные результаты на бенчмарках, сколько тот факт, что в техрепорте они объясняют все дизайн-решения, связанные с архитектурой модели и сбором данных для тренировки. Одно из таких экспериментально подтвержденных решений — использование в качестве аудиоэнкодера энкодера из Audio Flamingo 3 (альтернативой выступал аудиоэнкодер Qwen2.5). Но особое внимание авторы уделяют трём идеям: OmniAlignNet, Temporal Embedding Grouping и Constrained Rotary Time Embedding — о них и пойдёт речь в посте.

OmniAlignNet

В процессе обучения модели каждое видео разбивается на аудиопоток и поток изображений; при этом семантически эти потоки связаны, так как звук может дополнять картинку (и наоборот). Чтобы аудиоэмбеддинги и эмбеддинги картинок были в одном латентном пространстве, модели и нужен модуль OmniAlignNet.

Общий пайплайн работы модуля выглядит следующим образом:

1) для аудиального и визуального потоков получаем последовательность эмбеддингов;

2) используем эти последовательности как key-value-эмбеддинги для cross attention; смешиваем их с query-эмбеддингом (свой для каждого потока) и получаем для каждого видео два мультимодальных эмбеддинга (audio-omni и visual-omni);

3) мультимодальные эмбеддинги прогоняем через три self-attention-слоя и L2-норму;

4) для батча мультимодальных эмбеддингов максимизируем кросс-модальное расстояние (скалярное прооизведение) для эмбеддингов, соответствующих разным сэмплам, и минимизируем в обратном случае (для эмбеддингов, соответствующих одинаковым сэмплам) — contrastive loss, похожий на то, что было в CLIP (симметричная кросс-энтропия из vision в audio и наоборот).

OmniAlignNet хорошо справляется с моделированием верхнеуровневых семантических связей между аудиальными и визуальными эмбеддингами. При этом для того, чтобы моделировать более низкоуровневые связи, авторы предлагают два вида преобразования эмбеддингов, речь о которых пойдет дальше.

TEG: Temporal Embedding Grouping

Идея TEG в том, что правильное упорядочивание эмбеддингов разных модельностей помогает языковой модели лучше улавливать локальные смысловые зависимости. Гиперпараметр этого метода — размер временного окна T_g, которое контролирует гранулярность группировки эмбеддингов: эмбеддинги делятся на чанки размером T_g; модальности внутри чанков чередуются.

Авторы утверждают, что такая гранулярная конкатенация эмбеддингов улучшает качество модели по сравнению с подходом, где эмбеддинги конкатенируются крупными блоками (блок vision → блок audio → блок vision…).

Constrained Rotary Time Embedding (CRTE)

CRTE — это модификация Rotary Time Embeddings (RoTE, не путать с RoPE), трёхстадийный процесс, состоящий из генерации базовых частот, модификации этих частот и rotary-части, т.е. поворота эмбеддингов.

На этапе генерации базовых частот в CRTE предлагается добавить гиперпараметр T_max — этот множитель добавляется в знаменатель при вычислении базовых частот. Чем меньше T_max, тем больше учитываются близкие друг другу эмбеддинги (и наоборот): w_i = 2π/(T_max·θ^(i/C)).

На этапе модификации базовых частот CRTE продолжает идею RoTE: для определения углов поворота эмбеддингов используются настоящие расстояния в секундах, в отличие от дискретных позиций у RoPE: Ω_{i,j} = ω_i · t_j, где t_j — реальная временная метка.

Авторы проводят ablation study и доказывают, что все предложенные модификации действительно улучшают качество модели на мультимодальных бенчмарках (см. третий скриншот).

В продолжении разбора мы подробнее расскажем, какие ещё эксперименты были проведены авторами статьи, а также о разнице между implicit learning и explicit learning у мультимодальных моделей.

Екатерина Козлова ❣ Специально для Speech Info

Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

Wed, 12 Nov 2025 11:07:32 +0000

Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

Разбираем статью о Vevo2 — унифицированной модели для генерации контролируемой речи и пения. Цель авторов — создать гибкий механизм независимого управления текстом, просодией (мелодией), стилем (акцентом, эмоциями, вибрато) и тембром для обеих модальностей. В этом посте разберём вклад, который работа вносит в индустрию.

Вклад в данные для пения

Во-первых, авторы решают проблему дефицита аннотированных данных для пения. Предлагаются два аудиотокенизатора (не требующих ручной аннотации для музыкальных данных):

— Prosody Tokenizer (6.25 Гц) — VQ-VAE, обучаемый на реконструкции хромаграммы; кодирует просодию речи, мелодию пения и даже инструментальных звуков.
— Content-Style Tokenizer (12.5 Гц) — VQ-VAE, реконструирующий хромаграмму и скрытые состояния Whisper; кодирует лингвистический контент, просодию и стиль для речи и пения, устойчив к различному тембру, что авторы демонстрируют результатами в Voice Conversion.

Выбор хромаграммы с низкой частотой обусловлен простотой расчёта, устойчивостью к шуму и различным источникам, а также octave-free-представлением (снижает разрыв диапазона F0 между речью и пением).

Архитектура Vevo2 включает два этапа:

1. Авторегрессивное моделирование Content-Style-токенов (AR-трансформер, инициализированный Qwen 2.5 (0,5B):

— На вход принимает текст + (опционально) Prosody-токены + Content-Style токены референса.
— Поддерживает Explicit Prosody Learning (EPL) (просодия как явный ввод) и Implicit Prosody Learning (IPL) (просодия генерируется in-context).
— Во время претрейна стратегии EPL/IPL чередуются равновероятно для всех данных — это унифицирует обучение речи и пения.

2. Акустическое моделирование (Flow-Matching):
— Преобразует Content-Style-токены в мел-спектрограмму, обуславливаясь на референс тембра.
— Финальный waveform — через Vocos-вокодер, дообученный на речь и пение.

Вклад в пострейн (GRPO)

Этот этап нужен для повышения разборчивости речи и просодической схожести с контролирующей последовательностью, а также для обобщения на инструментальные источники мелодии.

Используется сумма двух наград:
— Intelligibility Reward: обучается на контрастив хороших-плохих пар (текст, Content-Style токены). Стратегии EPL/IPL как и на претрейне чередуются равновероятно.
— Prosody Similarity Reward: косинусная близость между хромаграммой ground-truth и реконструкцией (через декодер Content-Style Tokenizer) из сгенерированных Content-Style-токенов.

Унифицированное моделирование даёт взаимные преимущества: обилие речевых данных улучшает качество пения, пение — выразительность и просодический контроль речи. Vevo2 достигает SOTA в SVS, SVC, humming-to-singing, instrument-to-singing и близких к лучшим результатов в TTS/VC.

Дмитрий Попов ❣ Специально для Speech Info

Qwen3-Omni Technical Report [2/2]

Thu, 06 Nov 2025 12:20:15 +0000

Qwen3-Omni Technical Report [2/2]

Продолжаем разбор техрепорта Qwen3-Omni. В первой части рассказали об архитектурных отличиях от Qwen2.5-Omni.

В генерации аудио также произошли изменения. Помимо Talker, используются ещё две модели: MTP-модуль (авторегрессионная dense-модель размером 80М) и Code2Wav (декодер для кодеков, сверточная модель размером 200М), которые работают с RVQ-токенами (Residual Vector Quantization). Схема работы следующая:

- Поверх Talker есть линейный слой, который предсказывает нулевой кодбук.
- С помощью MTP-модели, вместо того, чтобы предсказывать оставшиеся RVQ-токены последовательно, предсказываются сразу все — по аналогии с multi token prediction (такой подход используется, например, в Deepseek).
- Полученные RVQ-токены подаются в модель Code2Wav, которая преобразует их в вейвформу. Этот подход эффективнее, чем в Qwen2.5-Omni, где использовались трансформерные модели для отображения в мел-спектрограмму и только затем — в вейвформу.

Как и в случае Qwen2.5-Omni, значительная часть статьи уделена тому, как модель стримится. Авторы вновь используют асинхронный prefilling. Как только Thinker заканчивает prefilling для текущего чанка, его выходы отдаются в Talker, чтобы он тоже мог начать prefilling. При этом Thinker уже начинает обрабатывать следующий чанк.

Также исследователи заявляют, что используют только левый контекст для генерации аудио, в отличие от Qwen2.5-Omni, где создавалась задержка из-за того, что необходимо было накопить немного правого контекста.

Как и для Qwen2.5-Omni, предобучение проходит в три этапа:

- На первом замораживается LLM и обучаются только энкодеры и адаптеры для них (Encoder Alignment Stage). Причём начинают именно с адаптеров. В качестве инициализации для LLM используется Qwen3, для энкодера изображений — Qwen3-VL, для энкодера аудио — новый аудиоэнкодер, который обучили ранее.
- На второй стадии все параметры размораживаются, добавляются более разнообразные мультимодальные данные и задачи.
- На третьем этапе увеличивается контекстное окно с 8192 до 32768 токенов, чтобы модель могла обрабатывать длинные входы. Также в данные добавляются более длинные аудио/видео.

Дальше начинается post-training, который разделён для Thinker и Talker.

Для Thinker была только одна стадия — SFT (supervised fine-tuning), теперь добавлены ещё две: дистилляция, которая используется для получения более компактных LLM (по принципу Strong-to-Weak Distillation из Qwen3), и RL (GSPPO) — обучение с подкреплением, где оценивается качество отклика модели. Для задач с чёткими критериями (mathematics, coding) применяются награды, которые вычисляются по заранее заданным правилам. Для остальных задач, где сложно сформулировать чёткую награду, используется подход LLM-as-a-judge, где для оценки ответа модели используются Qwen3 и Qwen2.5-VL.

Для Talker раньше было три стадии, теперь — четыре. Первая — предварительное обучение на большом объёме данных с мультимодальным контекстом; вторая — добавление более качественных данных для борьбы с галлюцинациями после первой стадии; затем DPO (Direct Preference Optimization) и Speaker Fine-Tuning, чтобы Talker научился копировать тембр и интонации во время генерации аудио.

В качестве бонуса исследователи выпустили в опенсорс Qwen3-Omni-30B-A3B-Captioner — модель для решения задачи audio captioning на основе Qwen3-Omni-30B-A3B.

В результатах показано, что модель не теряет в качестве по сравнению с немультимодальными: сильна в ASR (китайский, английский), превосходит в музыкальных задачах, держит SOTA в тексте и визуале и поддерживает межъязыковой voice cloning.

Александр Паланевич ❣ Специально для Speech Info

Qwen3-Omni Technical Report [1/2]

Fri, 31 Oct 2025 12:18:01 +0000

Qwen3-Omni Technical Report [1/2]

Сегодня начинаем разбирать техрепорт Qwen 3 Omni — самого нового мультимодального Qwen. Авторы заявляют, что модель достигает SOTA-результатов или близких к ним сразу на всех типах данных. Качество не ухудшается ни в одном направлении по сравнению с немультимодальными моделями Qwen. Другими словами, Qwen 3 Omni показывает качество на тексте не хуже, чем текстовая версия Qwen 3 или визуальная Qwen 3-VL, при сопоставимых размерах моделей.

Из интересных нововведений: модель умеет обрабатывать очень длинные входы — до 40 минут. Также она поддерживает большое количество языков: как для взаимодействий текстом (119), так и в задачах speech-understanding (19) или speech-generation (10). В статье отмечается, что улучшен ризонинг независимо от модальности входа, а latency остаётся низкой — всё работает достаточно быстро.

Идейно Qwen 3 Omni очень похож на Qwen 2.5 Omni:

— Используется Thinker-Talker-архитектура. Thinker — языковая модель, которая умеет принимать на вход данные разных модальностей и выдавать текст. Talker принимает выходы Thinker и генерирует аудио. Важное отличие от предыдущего Qwen в том, что теперь Thinker/Talker — это MoE-модели (Mixture of Experts).

— Разные модальности кодируются за счёт соответствующих энкодеров. В Qwen 3 Omni эти энкодеры обновили: для картинок вместо Qwen 2.5 VL используется Qwen 3 VL, а для аудио авторы обучили свой энкодер с нуля.

Одно из основных отличий новой модели от 2.5 Omni заключается в том, как выходы Thinker подаются в Talker. Для изображений и аудио по-прежнему используют хиддены Thinker для соответствующих модальностей, а вот текст теперь передаётся в виде обычных текстовых эмбеддингов. По словам авторов, эмбеддинги уже достаточно хорошо отражают текст, а скрытые состояния избыточны. Такой подход делает систему гибче: можно использовать разные промпты для Thinker и Talker или добавлять дополнительный контекст (например, через RAG), не ухудшая качество.

Как уже упоминалось, в статье используется новый аудиоэнкодер: вместо дообучения Whisper, авторы обучают свою encoder-decoder-модель с нуля. Из интересного в плане архитектуры можно выделить более сильный downsampling factor: 8 вместо 4 (то есть применяется более сжатое представление в аудиомодальности, фреймы по 80 мс вместо 40 мс).

Для обучения под разные задачи использовали 20 млн часов аудио. Из них 80% — задача ASR на китайские и английские псевдолейблы, 10% — задача ASR для других языков и ещё 10% — задача audio understanding. Во время обучения используется window attention с разными размерами окна, чтобы модель могла одинаково хорошо работать и в офлайн-сценариях (с большим контекстом), и в стриминговом режиме (с коротким). После обучения декодер выбрасывается, а энкодер используется для кодирования аудио в самом Qwen 3 Omni.

Основное изменение для видеомодальности заключается в том, как видео подаётся на вход модели. Теперь изображения и аудио чередуются не фиксированными двухсекундными блоками, как раньше, а динамически — в потоке, с гибким соотношением кадров, что делает мультимодальный стриминг более естественным.

В следующей части поговорим о том, как в новой модели поменялась генерация аудио, как проходило предобучение и что авторы говорят о результатах.

Александр Паланевич ❣ Специально для Speech Info

Три идеи для улучшения ASR: DuRep, OWSM-Biasing и Pinyin-Guided ASR

Mon, 20 Oct 2025 12:32:48 +0000

Три идеи для улучшения ASR: DuRep, OWSM-Biasing и Pinyin-Guided ASR

Сегодня делимся подборкой трёх свежих работ по архитектурам и подходам в распознавании речи. Все они так или иначе решают задачу повышения устойчивости и адаптивности моделей.

DuRep: Dual-Mode Speech Representation Learning via ASR-Aware Distillation

Команда из Amazon предложила пайплайн для обучения, который включает несколько стадий. Сначала используется BestRQ pretraining, затем проводится full-context fine-tuning — тут ничего нового. Но дальше начинается интересное: авторы предлагают особый тип дистилляции, по сути дополнительный претрейн, после которого уже выполняется финальная настройка.

Под dual-mode здесь понимается не «аудио–текст», как может показаться, а режим, объединяющий стриминг и full-context. У исследователей есть full-context-энкодер, и они хотят получить dual-mode-энкодер, который можно использовать как претрейн. Для этого применяют кодбук и токенизацию, обучаясь с кросс-энтропийной функцией потерь — почти как в обычном претрейне.

Ключевой нюанс — жонглирование масками. Они рандомизируют как левый, так и правый контексты при обучении, что помогает улучшить качество кодирования.

Для стриминга это работает, потому что модель учится с учителем, имеющим полный контекст, и получает больше информации. Для full-context улучшения можно объяснить тем, что дистилляция с варьирующимися масками предотвращает переобучение: датасет у авторов не слишком сложный, и такая регуляризация помогает повысить общую устойчивость модели.

OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary

Основная идея статьи в том, чтобы к seq2seq-модели добавить biasing list, который позволяет учитывать редкие или специфические слова (например, имена собственные). Редкие слова обычно разбиваются на несколько BPE-токенов, что мешает корректному распознаванию. Чтобы избежать этого, каждое слово из biasing list представляется как единый токен — элемент динамического словаря (<Raphael>, <Nelly> и т.д.).

Выходная матрица логитов расширяется за счёт этих слов, что позволяет модели напрямую предсказывать редкие слова как единые токены. Обучаются при этом только эмбеддинги и, по сути, деэмбеддинги.

Нюанс в том, что при генерации декодеру приходится выдавать такие токены, опираясь только на сигнал от biasing encoder. Это необычно, но при хорошем обучении, вероятно, сработает.

Во время тренировки в biasing list случайно добавляют слова из обучающего набора, чтобы модель училась работать с разнообразными словами.

Pinyin-Guided Chinese Speech Recognition with Large Language Model

Пиньинь — это упрощённая запись китайских иероглифов латинскими буквами (иногда с цифрами, обозначающими тоны). По сути, авторы обучают ASR-модель на базе LLM.

Китайские иероглифы могут произноситься по-разному, и здесь возникает дисбаланс: прозвучало одно, записано другое — модель может путаться. Поэтому авторы предлагают ввести промежуточное состояние: сначала модель выдаёт pinyin-токены, которые напрямую отражают произнесённое, а уже потом конвертирует их в целевые токены — сами китайские иероглифы.

Концептуально интересно, что модель фактически делает нечто вроде ризонинга: не выдаёт результат сразу, а проходит через дополнительный слой осмысления.

Идею можно применять и в других задачах: например, в переводе — сначала генерировать промежуточные слова на исходном языке, затем переводить; в музыке — восстанавливать произнесённые названия треков через промежуточное фонетическое представление; аналогично и с англицизмами — сначала фиксировать звучание, потом корректировать форму.

Евгений Ганкович ❣ Специально для Speech Info

Работы об аудиокодеках и новых подходах к сжатию речи

Mon, 13 Oct 2025 10:05:17 +0000

Работы об аудиокодеках и новых подходах к сжатию речи

Большинство статей на конференции Interspeech традиционно представлены академией. В силу ограниченности ресурсов в них нет результатов обучения на действительно больших датасетах или надёжных асессорских замеров. Поэтому их можно рассматривать скорее в качестве источника идей, чем как решения для продакшна. Сегодня разберём несколько таких работ.

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

Авторы исходят из того, что кодирование в последовательности токенов глобальной, не зависящей от времени информации приводит к её дублированию для каждого таймстемпа и лишней трате capacity. Оптимальнее кодировать только то, что меняется со временем, а остальное передавать отдельно — в виде фиксированного вектора.

В качестве глобальной информации в работе используют тембр голоса спикера. Обучающий сэмпл включает два аудио: таргет и промпт от того же спикера. Перед подачей в энкодер тембр таргета искусственно искажается, а декодеру дополнительно передаются SSL-фичи промпта через position-agnostic cross-attention. Модель учится предсказывать мел-спектрограмму и SSL-семантические токены исходного таргета (до искажения).

В результате выход энкодера не содержит информации о тембре таргета, и декодер учится извлекать её из промпта (а благодаря боттлнеку эта информация не зашивается в токены энкодера). При этом position-agnostic attention предотвращает утечку из промпта остальной, зависящей от времени, информации.

Статья интересна идейно, но использование в качестве глобальной информации только тембра кажется слишком ограничивающим. В списке ссылок приведена работа с ICASSP 2024 с аналогичной мотивацией, но более общим подходом.

Fewer-token Neural Speech Codec with Time-invariant Codes

Архитектура учится end-to-end и состоит из нескольких частей: энкодер и квантайзер для токенов переменной длины; энкодер (с average pooling на последнем слое), квантайзер для фиксированного глобального вектора и совместный декодер.

Чтобы закодировать в глобальном векторе именно не зависящую от времени информацию, добавляется дополнительная компонента лосса. Вычисляется глобальный вектор для другого аудио того же спикера и минимизируется косинусное расстояние между ним (с навешенным stop-gradient) и глобальным вектором таргета.

Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ

Статья содержит две основные идеи.

Мотивация первой: в токенах можно не кодировать информацию о шуме, тем самым объединив задачи кодирования и enhancement и дополнительно сэкономив capacity.

Модель учится в две стадии. На первой кодек просто обучается на чистых данных. На второй — его учат удалять из токенов данные о шуме, то есть получать одинаковые токены для чистого и шумного аудио. Для этого в энкодер добавляют новый denoising-слой, а во время обучения искусственно зашумляют каждое аудио и добавляют к лоссу дополнительную компоненту: L1-расстояние между входом denoising-слоя для чистого аудио и выходом для шумного.

Вторая идея — адаптивный bitrate в зависимости от количества информации, содержащейся в каждом фрейме аудио. Например, фреймы с голосом можно кодировать более детально, чем фреймы с тишиной. Для этого на выходах энкодера обучается предиктор, возвращающий количество первых RVQ-токенов, которые необходимо просуммировать для данного фрейма. К лоссу добавляется дополнительная компонента — суммарное число предсказанных токенов.

Дарья Петренко ❣ Специально для Speech Info

SMARTMOS: Modeling Subjective Audio Quality Evaluation for Real-Time Applications

Tue, 30 Sep 2025 12:01:06 +0000

SMARTMOS: Modeling Subjective Audio Quality Evaluation for Real-Time Applications

Сегодня разбираем статью от Meta* о решении SMARTMOS, применяемом в звонках (WhatsApp и др.) для оценки качества звука после шумоподавления и других алгоритмов обработки. В продакшене важно не только понимать общий показатель качества, но и иметь возможность разложить его на составляющие: насколько хорошо слышна речь, насколько повлияли потери пакетов, сколько шума осталось и какую аудиозапись в итоге получает собеседник на свой девайс. Именно такую детализированную оценку даёт SMARTMOS.

Для этой задачи использована небольшая стриминговая нейросеть. Она работает прямо на устройстве и предсказывает скоры для двух задач по 10-секундному сегменту аудио: Noise Suppression (NS) и Packet Loss Concealment (PLC). Внутри Noise Suppression есть разделение по аспектам: Speech MOS, Noise MOS и Overall MOS. Интересно, что архитектура энкодера совпадает с используемой в оффлайн-ASR в умных очках Meta.

Обучение делается на сегментах длиной около 10 секунд. Логика в том, что на длинных кусках качество можно оценить надёжнее, поскольку короткие отрезки в середине разговора могут давать искажённые результаты.

Данные для обучения собираются из тестов реальных приложений — в релизном процессе есть тестировщики, которые записывают аудио по сценариям, эти записи логируются и размечаются людьми. Чтобы компенсировать нехватку данных, авторы использовали не только человеческую разметку (MOS-оценки), но и часть выборки с semi-supervised-метками.

Чтобы модель была достаточно лёгкой для запуска на любых устройствах, применяются оптимизации:

— используется VAD, тишина дропается, чтобы не тратить ресурсы;
— сегменты фиксированы по 10 секунд;
— энкодер принимает куски по 100 мс, обрабатывая их в стримминговом режиме;
— декодер (предиктор) аккумулирует все выходы энкодера и выдаёт одну оценку на весь сегмент.

Такой подход позволяет существенно снизить нагрузку на CPU: пиковая нагрузка распределяется более равномерно по времени.

Meta уже использует это решение в продакшене на всех типах звонков. Подобные решения будут полезны всем, кто делает продукты для звонков. В реальности у нас почти никогда нет простого способа измерить, насколько хорошо работает шумоподавление. Модель вроде SMARTMOS могла бы закрыть этот пробел и дать мониторинг качества прямо в проде.

Борис Шелудько ❣ Специально для Speech Info

* Компания Meta, владеющая WhatsApp, признана экстремистской; её деятельность в России запрещена.

Interspeech 2025: впечатления инженеров Яндекса

Thu, 25 Sep 2025 16:50:51 +0000

Interspeech 2025: впечатления инженеров Яндекса

Мы по традиции попросили инженеров Яндекса подвести личные итоги конференции — на этот раз Interspeech 2025 — и рассказать, чем она запомнилась. В карточках собрали заметки, впечатления и самые интересные работы.

Статьи, которые упоминаются в посте:
— Low-Bitrate and Speaker-Decoupled Discrete Speech Codec;
— Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback;
— В статье Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising;
— Adaptive Knowledge Distillation for Device-Directed Speech Detection.

Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.

Интересные статьи на Speech Synthesis Workshop 2/2

Mon, 15 Sep 2025 09:04:04 +0000

Интересные статьи на Speech Synthesis Workshop 2/2

Разберём ещё две любопытные работы с Speech Synthesis Workshop. Одна посвящена управлению стилем на уровне слов, другая — синтезу речи с невербальными характеристиками.

Lina-Style: Word-Level Style Control in TTS via Interleaved Synthetic Data

Авторы предложили, как из небольшой выборки с разметкой стиля и большого неразмеченного корпуса построить полностью синтетический датасет с локальными (на уровне слова) метками стиля и его интенсивностью, а затем дообучить модель, чтобы она кондишенилась на метки. Для этого они использовали свою предыдущую работу, модель Lina-Speech. Архитектурно это текстовый энкодер и аудиодекодер с Gated Linear Attention (GLA). GLA, кстати, позволяет легко использовать prefix free prompting через initial state-tuning. Этим и воспользовались авторы.

Сначала они взяли претрейн Lina-Speech на неэмоциональной речи. Дотюнили его через initial state-tuning на несколько стилей (neutral, happy, confused, enunciated). Затем синтезировали несколько вариантов одной и той же реплики в разных стилях. Во время синтеза также использовали classifier‑free guidance (CFG), случайно сэмплировали альфа, поэтому насинтезированные аудио получились в разных стилях и с разной их интенсивностью.

Для каждого аудио построили соответствие текста аудиотокенам. Для этого извлекли матрицы soft-алайнмента текста и аудио и превратили их в матрицы hard-алайнмента с помощью Monotonic Alignment Search (MAS). Таким образом получили соответствие токенов аудио отдельным словам. Склеили слова из разных стилей в одно предложение и получили синтетический интерливинг-датасет с word-level-разметкой на стиль.

Осталось затюнить итоговую модель. На этом этапе дообучили базовый претрейн, добавив новые параметры: эмбеддинги стилей, интенсивностей и linear для их комбинации.

Почему это круто

Потому что это — пример сбора синтетического датасета с локальными метками стиля с нуля. В изначальном датасете сэмплов с word-level-разметкой не было. Ну и успешное обучение на синте подтвердило, что метод рабочий. Позалипать на сэмплы можно тут.

NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech

Янднекс тоже привёз свою статью, написанную совместно с коллегами из VK Lab. В ней предложили датасет для синтеза речи с невербальными характеристиками на английском языке и рассказали о пайплайне его сбора. Невербальные характеристики — это смех, вздох, кашель и другие звуки, которые мы издаём в речи и которые не являются словами.

В реальной жизни таких невербальных характеристик много, но разметки для них часто нет. Авторы взяли два опенсорсных датасета — Expresso и VoxCeleb — и сначала с помощью опенсорсных моделей получили грубую разметку по невербальным характеристикам и эмоциям. Затем уточнили результаты с помощью ручной разметки и отфильтровалы шумные сэмплы (например, аудио со смехом, который оказался закадровым). После этого зафьюзили варианты правильных транскрипций от нескольких разметчиков и получили итоговый датасет: 13 часов аудио с 10 типами невербальных характеристик.

Затюнили на своём датасете CosyVocie и сравнились с CosyVoice2, который обучался на проприетарном датасете, нестатзначимо проиграли в SbS. В статье раскрыли детали пайплайна разметки, а датасет выложили на Hugging Face. Там немного, но это честная работа.

Почему это круто

Синтез с невербальными характеристиками нужен для синтеза спонтанного и разговорного стилей речи. NVTTS может быть использован для файнтьюна, а также как стартовая точка для скейла и unsupervised-разметки датасета большего размера.

Дарья Дятлова ❣ Специально для Speech Info

Интересные статьи на Speech Synthesis Workshop 1/2

Wed, 10 Sep 2025 09:00:01 +0000

Интересные статьи на Speech Synthesis Workshop 1/2

Speech Synthesis Workshop — это воркшоп, который проходит при конференции Interspeech. В этом году разработчик службы синтеза речи Дарья Дятлова побывала на мероприятии и поделилась интересными статьями.

Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis

Авторы сравнивают схожесть оригинального голоса спикера и синтезированного моделью с помощью автоматической метрики. Выдеяют четыре тезиса-предпосылки.

1. Обычно для такого сравнения используют косинусную близость двух векторов, полученных из эмбедов модели для верификации спикеров (SV). Лучшая SV-модель — не всегда лучший экстрактор фичей для метрики схожести спикеров.

2. Характеристики голоса спикера можно разделить на две группы. Первые — спектральные — статичны и не меняются от записи. По ним легко отделить одного спикера от другого. Вторые — темп, длительность, громкость речи — динамичны и могут меняться от записи к записи. Эмбеддинги большинства моделей для SV не содержат информации о динамических характеристиках аудио.

3. Эмбединги моделей SV содержат информацию о чистоте сигнала и длительности аудио — это не прямая характеристика голоса спикера, а определенный баес датасета или TTS-модели. При конструировании метрики на основе этих эмбедингов стоит иметь это ввиду и применять определённые фильтры, которые помогают сгладить эффект.

4. Грубым способом оценки ритма может быть оценка темпа речи спикера. Однако такой способ — сравнение средних величин количества слогов на секунду аудио — признак с плохой разделительной способностью.

Что предложили

В статье предложили метрику U3D (Unit Duration Distribution Distance), которая оценивает одну из динамических характеристик речи спикера — её ритм. Метрика основана на сравнении распределений длительности групп фонем. Это не фонемы в буквальном смысле (они извлекаются в unsupervised-сетапе путём кластеризации эмбеддингов HuBERT), но дальше для простоты буду называть их фонемами.

Каждому элементу в последовательности из спич-юнитов присваивается индекс ближайшей к нему фонемы, после чего последовательность разделяется на сегменты идущих друг за другом фонем. Для каждой фонемы считается длительность в количестве спич-юнитов для каждой записи спикера. Затем тестовая и контрольная выборки распределений сравниваются через метрику Вассерштейна. В результате авторы показали, что метрика обладает высокой разделительной способностью и робастна к сравнению схожих спикеров.

Почему это круто

Большая часть статьи посвящена не самой метрике, а подводке к тому, зачем вообще она нужна и почему не всегда достаточно просто считать косинусную близость между эмбедами какой-то модели верификации спикеров и называть это speaker-similarity.
Пайплайн unsupervised-разметки легко адаптируется и хорошо ложится не только на задачу ритма и не только для подсчёта метрики.

Продолжение следует.

Дарья Дятлова ❣ Специально для Speech Info

Audio Flamingo 3

Mon, 01 Sep 2025 08:02:43 +0000

Audio Flamingo 3

Сегодня разбираем статью о модели Audio Flamingo 3, в которой авторы предлагают новый энкодер AF-Whisper. Одно из его ключевых отличий — умение обрабатывать все три типа аудио: речь, звуки и музыку. По словам авторов, большинство аудио-LLM используют три отдельных энкодера для этих задач.

Основной вклад работы, который отмечают в статье: новый аудиоэнкодер, использование chain-of-thought, поддержка multi-turn-диалогов, понимание длинных записей и voice-to-voice-диалоги. Кроме этого, модель полностью в открытом доступе, включая код обучения и использованные датасеты.

Что касается бенчмарков, авторы сравнились как с опенсорсными, так и с проприетарными решениями — модель везде показала лучшие результаты. Наиболее близкой они считают GPT-4 Audio, но при этом отмечают её закрытость.

Архитектура

AF-Whisper построен на базе Whisper, который дообучили вместе с LLM. Есть недостаток — модель не стриминговая: работает с 30-секундными фрагментами звука, обрабатывая соседние куски без маскировки, а затем собирает аудио произвольной длины. Whisper разморозили, добавили адаптер с кросс-аттеншеном (как в Audio Flamingo 2) и сгенерировали синтетические описания готовых аудио с помощью GPT-4.1.

Этапы обучения

Сначала обучают только адаптер, чтобы не повредить энкодер и LLM. Затем идёт совместное обучение энкодера и адаптера, после чего следуют дополнительные стадии: 1) SFT — разморожена вся сеть; 2) расширение контекста и reasoning — разморожена только LLM; 3) для добавления диалогов снова разморожена вся сеть.

Данные

Основная часть статьи посвящена описанию данных. Первая и вторая стадии используют пост-опенсорсные датасеты, конвертированные в единый формат: например, в задачах ASR модель явно просили выполнить транскрибацию. Далее идёт стадия Audio Skills XL с добавлением пар «вопрос-ответ».

Авторы отмечают, что одного ASR и классификации аудио по открытым датасетам недостаточно для появления reasoning, поэтому они генерируют дополнительные данные:

— берут 30-секундные аудиофрагменты;
— создают датасет из 4,5 млн новых вопросов-ответов, в основном multi-choice;
— источники — YouTube8M, Music4All, Million Song Dataset;
— на основе метаданных и аудио GPT-4.1 генерирует промпты и ответы.

Для описания звуковых событий применяют аналогичный подход, используя также Audio Flamingo 2, который умеет давать базовые описания.

Reasoning

Отдельный датасет сделали для длинных аудио с задачами на рассуждение. Разметку reasoning добавляли в небольшое число сэмплов и прямо на уровне промпта просили модель объяснить ход рассуждений. Ответы — до 40 слов. Префиксы для reasoning генерировали в Gemini, так как он давал меньше галлюцинаций.

Примеры решаемых задач: определение сарказма и эмоционального состояния, извлечение информации из длинного аудио, определение порядка событий, суммаризация,
отслеживание смены темы разговора.

Multi-turn-диалоги

Последним этапом авторы добавили данные для естественных многошаговых диалогов — 75 тысяч примеров, сгенерированных GPT.

Инфраструктура

Обучение проводили на кластере из 128 A100. Авторы отмечают, что ключ к качественной модели — чистый датасет. В экспериментах вариант с reasoning давал заметный прирост качества.

Всеволод Ковшов ❣ Специально для Speech Info

Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering

Wed, 27 Aug 2025 08:05:43 +0000

Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering

Сегодня разбираем статью с Interspeech 2025 от NVIDIA, посвящённую стриминговой end-to-end-диаризации спикеров с использованием Arrival-Time Ordering Cache. Основное применение — интеграция в multi-talker ASR. На конференции статью представлял основной автор, исследователь NVIDIA, Иван Меденников.

В работе представляют улучшение предыдущей модели Sortformer, в которой были предложены архитектура с Sort Loss и метод выравнивания сегментов диаризации с токенами ASR. Ключевой новинкой стал Arrival-Order Speaker Cache (AOSC) — кэш эмбеддингов спикеров, упорядоченных по времени появления. Модель работает в скользящем окне: в кэш добавляются фреймы с наивысшими оценками уверенности для каждого спикера, с динамическим распределением (минимум K фреймов на спикера и silence embeddings для переходов).

Интересные аспекты:

— Sort Loss (сортирует спикеров по времени появления, в отличие от attractor-based EEND) не заменяет полностью PIL, но их комбинация работает лучше, так как Sort Loss выполяет функцию регуляризации.
— Стриминговая версия превосходит офлайн-версию на длинных записях, устраняя train-inference mismatch (обучение на 90-секундных сегментах vs произвольная длина теста).
— Инициализация от предобученного офлайн Sortformer полезна, но fine-tuning с AOSC обязателен, так как фреймы в кэше могут быть непоследовательными.
— Обучение проводилось на 5150 часах симулированных смесей и 2030 часах реальных данных. С синтетикой нужно быть осторожными: модель склонна к оверфиту на background noise.

Эксперименты показывают SOTA для E2E-онлайн-диаризации с достаточно низкой latency.

Ограничения модели следующие: фиксированное максимальное число спикеров (4 в работе), масштабирование требует данных с большим числом дикторов и растёт вычислительная сложность PIL (O(N!) для перестановок).

Дмитрий Попов ❣ Специально для Speech Info

Сегодня завершается Interspeech 2025

Thu, 21 Aug 2025 13:50:01 +0000

Сегодня завершается Interspeech 2025

Под занавес конференции делимся несколькими атмосферными фото и видео:

— Фрагмент Show&Tell-сессии с физической моделью голосового тракта. Редкий случай, когда на конференции показывают не абстрактные алгоритмы, а реальную говорящую машину.

— Команда Яндекса — как обычно, в эпицентре идей и технологий.

— Анонс Interspeech 2026: в следующем году встречаемся в Сиднее!

Speech Info

В этом году Яндекс привёз на Interspeech статью Multichannel Keyword Spotting for Noisy Conditions о нейросетевой архите

Wed, 20 Aug 2025 12:06:21 +0000

В этом году Яндекс привёз на Interspeech статью Multichannel Keyword Spotting for Noisy Conditions о нейросетевой архитектуре KWS.

Решение объединяет мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Подробнее о работе рассказывали здесь, а теперь делимся маленьким фоторепортажем с постера!

Speech Info

Интересные статьи на Interspeech 2025

Wed, 20 Aug 2025 09:12:51 +0000

Интересные статьи на Interspeech 2025

В Роттердаме проходит Interspeech 2025, крупнейшая мировая конференция по речевым технологиям. Тема этого года — Fair and Inclusive Speech Science and Technology. Спешим поделиться двумя интересными статьями от Alibaba Group (создателей Cosy Voice, около-SOTA TTS-модели).

Long-Context Speech Synthesis with Context-Aware Memory
Для сохранения контекста и натуральности синтеза длинных предложений авторы предлагают механизм памяти — раздельно для текста и звука, — который авторегрессионно обновляется. При обучении история поддерживается на уровне параграфа.

Differentiable Reward Optimization for LLM based TTS system
В работе предложили метод вычисления reward-функции напрямую из токенов аудиокодека с помощью Multi-Task Reward. Модель одновременно оценивает несколько аспектов синтеза: точность произношения (через задачу ASR), эмоциональную окраску (SER), качество звучания (SQA), а также характеристики говорящего — пол и возраст. Для дифференцируемости используют Gumbel-Softmax. Главные результаты: SOTA на SEED-TTS, а также возможность контролировать в TTS-системе эмоции, пол, возраст и MOS (Mean Opinion Score).

Работы отобрал ❣ Дмитрий Попов
Speech Info

Voxtral

Fri, 15 Aug 2025 09:34:44 +0000

Voxtral

Сегодня разбираем статью об опенсорсной модели Voxtral от Mistral AI. Ключевая идея решения в том, чтобы к уже обученной текстовой LLM «прикрутить» аудио. Для этого используют готовый ASR-энкодер (Whisper) и адаптер, после чего ответы генерирует языковой декодер. Аудио режут на фрагменты по 30 секунд, обрабатывают их энкодером, склеивают эмбеддинги и прореживают в четыре раза в адаптере, уменьшая длину последовательности. На вход декодеру можно подать и текстовые токены, например вопрос или инструкцию.

Есть две версии модели. В составе Mini-версии — аудиоэнкодер на 640 млн параметров, адаптер на 25 млн, текстовые эмбеддинги на 400 млн и декодер на ~3,6 млрд (всего ~4,7 млрд); в Small — аналогичный аудиоэнкодер и адаптер на 52 млн, но уже 670 млн в эмбеддингах и 22,9 млрд в декодере (всего ~24,3 млрд). Контекст аудиоветки — до 32 тысяч токенов, что соответствует примерно 40 минутам звука.

Для предобучения длинное аудио сначала размечают (VAD → транскрипция → диаризация), затем разбивают на пары (Aₙ, Tₙ) и учат на двух паттернах: repetition, где по аудио восстанавливают его транскрипцию, и continuation, где по аудио восстанавливают следующий текст. На первом проходе замораживают аудиоэнкодер и языковой декодер, обучая только адаптер — это заметно помогает в задачах понимания речи, тогда как на чистом ASR почти не сказывается.

Стадия SFT нужна, чтобы модель умела больше, чем просто распознавание речи. Датасет SFT состоит из синтетических примеров. В случае, когда инструкция передается текстом для длинных аудио, транскрипцию из ASR обрабатывает LLM, генерируя пары «вопрос-ответ». Если же инструкция задана в аудио формате, то авторы адаптируют текстовые SFT-датасеты с помощью озвучки инструкций через предобученную TTS-модель.

Есть и стадия RL/DPO-подобного обучения по парам ответов, которая даёт выигрыш в основном на маленькой модели. При этом для задачи ASR на большой модели данный этап даже снижал качество, поэтому в релиз он не вошёл.

Авторы отдельно показывают, что обучение только на interleaved-паттерне портит ASR, а только на ASR-паттерне — не даёт навыков понимания. Смешение двух задач примерно 50/50 даёт хороший баланс распознавания и понимания.

В бенчмарках Voxtral улучшает Whisper (взятый за энкодер) и показывает SOTA среди открытых моделей на части тестов по ASR. В переводе речи и аудиопонимании результаты конкурентны открытым моделям, а по синтетическим мультимодальным тестам на озвученных TTS данных местами уступают проприетарным системам уровня GPT-4o и Gemini. При этом текстовые навыки LLM после добавления аудио практически не страдают.

Влад Батаев ❣ Специально для Speech Info

Обзор статей с ICASSP 25. Часть 4: другие интересные статьи

Fri, 08 Aug 2025 14:19:52 +0000

Обзор статей с ICASSP 25. Часть 4: другие интересные статьи

В заключительной части — три статьи: оценка качества аудио с помощью self-supervised-моделей, сравнение претрейнов для speaker recognition и новый подход к мультиспикерной ASR с учётом информации о говорящем. Предыдущие части: 1, 2, 3.

Distillation and Pruning for Scalable Self-Supervised Representation-Based Speech Quality Assessment

Авторы предлагают модель оценки качества речи на базе XLS-R. Сначала они обучают большую модель (XLS-R-SQA) на разных датасетах, включая Zoom-звонки, синтетические и музыкальные данные. Чтобы учесть различия между датасетами, в архитектуру добавляют обучаемые scale и shift для каждого из них. На инференсе используется общий вариант модели, который, судя по результатам, хорошо работает на разных типах данных. Но полученная модель слишком большая, чтобы использовать её для оценки качества шумоподавления.

Чтобы её уменьшить используют два способа: дистиллируют в меньшую (DistillMOS) и обрезку параметров (PruneMOS). Обе версии показывают стабильное качество на звонках, синтетических и музыкальных датасетах.

Авторы сравнивают полученные модели с DNSMOS — популярной системой оценки качества для шумоподавления, обученной на данных DNS Challenge. Показывают, что DNSMOS хорошо работает на звонках, но хуже обобщается на другие домены данных.

Основной вывод: DistillMOS и PruneMOS достигают сопоставимого качества при меньшем размере и лучше обобщаются за пределами звонковых сетов. Однако использовать предполагается именно DistillMOS, потому что прунинг работает лучше при достаточно в большом количестве параметров.

In Search of Optimal Pretraining Strategy for Robust Speaker Recognition

Статья от российских авторов, которые изучают, как выбор претрейна влияет на устойчивость speaker verification моделей. Они используют TDNN-архитектуру поверх разных замороженных энкодеров: HuBERT, W2V, ASR-TDNN, и оценивают её на нескольких открытых датасетах.

На VOiCES и VoxCeleb1 системы на self-supervised фичах показывают сопоставимые или немного лучшие результаты по сравнению с бейзлайнами вроде ECAPA-TDNN и CAM++. Однако основное внимание в статье уделено обобщающей способности. На SRE'16, '19 и '21 (модели не обучались на этих датасетах) наименьший EER достигается при использовании ASR-претрейна и его фьюжена с другими энкодерами. Например, на SRE’19 CAM++ даёт 13.88, ASR-TDNN — 16.42, а их фьюжен — 9.66.

Авторы также анализируют влияние масштаба энкодера на переносимость. Эксперименты показывают, что более крупные энкодеры (например, обученные на LibriSpeech и VoxCeleb) помогают лучше обобщаться, даже если downstream TDNN остаётся компактным.

META-CAT: Speaker-Informed Speech Embeddings via Meta Information Concatenation for Multi-talker ASR

Авторы исследуют задачу мультиспикерной ASR: модель должна распознавать речь сразу нескольких говорящих и приписывать реплики каждому из них. Решение основано на использовании speaker-aware эмбеддингов, собранных через элементное перемножение двух компонентов: ASR-эмбеддингов и вероятностей принадлежности каждого временного кадра конкретному спикеру.

Модель состоит из замороженного энкодера для диаризации и обучаемых компонентов — ASR-энкодера, speaker encoding слоя и RNNT-декодера. На вход модель получает аудио с несколькими спикерами и (опционально) короткий «query»-пример нужного говорящего. Выходом становится либо полная транскрипция с разметкой по спикерам (MS-ASR), либо только текст нужного говорящего (TS-ASR).

Ключевая часть архитектуры — блок speaker encoding. Он принимает ASR-эмбеддинги и вероятности по спикерам (из диаризации) и формирует многомерное представление, в котором каждый из каналов отвечает за конкретного спикера. Это представление затем поступает в декодер.

Авторы отдельно отмечают, что модель можно использовать и в сценарии, где нужно отслеживать только одного говорящего. В будущей работе авторы обещают поддержку стриминга.

Алексей Рак ❣ Специально для Speech Info

Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать

Wed, 30 Jul 2025 06:01:01 +0000

Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать

Исследователи из Яндекса представят на конференции Interspeech 2025 в Роттердаме статью Multichannel Keyword Spotting for Noisy Conditions. Мы поговорили с авторами и узнали, как устроена нейросетевая архитектура KWS (keyword spotting), объединяющая два подхода: мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Задача: распознавать команды в шуме

В колонках есть задача голосовой активации — нужно, чтобы устройство услышало команду даже когда работает телевизор, пылесос или кто-то говорит фоном. Для улучшения работы в таких условиях можно использовать алгоритмы шумоподавления, как, например, в Zoom. Однако даже если такие модели улучшают звук для пользователей, они могут заметно ухудшать качество для моделей. Скорее всего, это происходит из-за того, что модели шумоподавления обучаются на синтетических данных, а модели голосовой активации — на реальных данных и учатся очищать шумы во внутреннем представлении сигнала.

Решение: несколько микрофонов

Получая информацию с нескольких микрофонов, можно сделать модель шумоподавления ощутимо лучше. Микрофоны расположены в разных точках устройства, и звук доходит до каждого с небольшой задержкой — за счёт этого можно понимать, откуда он пришёл, и подавлять сигнал конкретного направления.

В статье предлагается считать, что основной сигнал в каждый момент времени — это шум. И мы можем всегда очищать это направление. А чтобы услышать активационную фразу пользователя — «Алиса» — для очистки использовать направления сигнала секунду назад. Такой подход помогает убрать шумы, не затрагивая голосовую команду.

Но тогда возникает риск подавить голос пользователя, если он говорил до этого. Поэтому канал после шумоподавления не используется отдельно, а подаётся вместе с обычным. Чтобы модель могла выбрать между ними, добавили модуль attention. Он получает оба сигнала, вычисляет веса для частот каждого канала и складывает их с этими весами. В итоге на вход основной модели поступает комбинированный сигнал.

Архитектура: SVDF E2E + Attention + ANC

В основе модели — SVDF E2E. Это базовая архитектура, которая уже используется в проде Алисы. Добавляются механизм внимания и блок адаптивного шумоподавления Adaptive Noise Cancellation (ANC).

В статье эту архитектуру сравнивают с другими подходами. Приходят к выводу, что, например, Beamforming хоть и усиливает голос с нужного направления, но в целом работает хуже. Ещё пробовали вариант с двумя отдельными моделями, где каждая обрабатывает свой канал, а активация срабатывает, если сработала хотя бы одна модель. Такой способ даёт худшее качество и требует больше параметров. Удивительнее всего было увидеть, что Ensemble дает качество хуже, чем агрегация с помощью attention. Модель не просто выбирает звуковой сигнал, который нужно слушать, а некоторую комбинацию из звуковых каналов.

Полученные результаты: FRR — 5,5% при FA/h = 0,1. FRR отвечает за отзывчивость, а fah — за ложные срабатывания, и в обоих случаях — чем меньше, тем лучше. Этот результат превосходит Beamforming (6,7%) и Ensemble (6,4%). При этом модель остаётся компактной и не требует дополнительных ресурсов.

Обучение на двух датасетах

Модель обучалась и тестировалась на двух датасетах. Лабораторный — содержит 900 симулированных шумовых сцен (улица, кухня, пылесос и прочее) с разными голосами и уровнями шума. Полевой — это 10 млн анонимизированных примеров команд.

Технология, описанная в статье, проверена временем: она в проде с 2022 года и сейчас используется во всех современных колонках с Алисой. Архитектура хорошо масштабируется на edge-устройства — смарт-колонки и другие бытовые ИИ. В перспективе тот же механизм можно использовать, чтобы выбирать наилучший звуковой канал для передачи в облако.

Speech Info

Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers

Fri, 25 Jul 2025 09:04:17 +0000

Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers

Можно ли выучить выравнивание между аудио и текстом без архитектур вроде RNN-T и без использования blank-токенов? Авторы этой статьи считают, что можно. Достаточно self-attention-энкодера с отдельной головой, которая решает, на каких шагах нужно выпускать токены.

Классические ASR-модели (RNN-T, AED) формируют выравнивание во время декодирования: логиты зависят от возможных переходов по временной оси. Это требует либо динамического программирования (в CTC), либо перебора всех допустимых путей (в RNN-T). В Aligner-Encoder модель учится решать, стоит ли выпускать токен на каждом аудиофрейме. В энкодер добавляют FF-слой (aligner head), обучаемый по меткам из CTC loss. Принудительное выравнивание не требуется.

Токены добавляются только тогда, когда aligner говорит «да» — без использования blank-символов или графа выравнивания. Модель не создаёт лишних гипотез, декодинг упрощается, сложность по памяти — существенно ниже: O(U×Vocab) против O(U×T×Vocab) у RNN-T.

Что касается архитектуры, энкодер состоит из 2D-свёрток и Conformer-блоков (FFN, multi-head attention, 1D conv, residuals). Вход — log-mel-спектрограммы (окно 32 мс, шаг 10 мс), токены — WordPiece, используется label smoothing (δ = 2/V), чтобы избежать смещения к коротким предсказаниям.

Начиная с 14-го слоя self-attention, первые текстовые токены начинают фокусироваться на соответствующих аудиофреймах — это можно проследить по диагональному паттерну. Модель при этом «сдвигает» важные представления ближе к началу, сохраняя порядок токенов. В обычных энкодерах такого сдвига не происходит.

Модель обучалась на трёх англоязычных датасетах:
— LibriSpeech (960 часов),
— Voice Search,
— YouTube (670 тысяч часов псевдозаписей длиной 5–15 секунд).

Для оценки на YouTube выделили 30 часов 8-минутных аудиофрагментов (по 15 часов на валидацию и тест). Модель показывает точность на уровне CTC-базлайна на LibriSpeech и превосходит его на YouTube.

Авторы также проверяют, можно ли использовать обученный aligner в других моделях. В одном из экспериментов инициализируют RNN-T слоями из выученного энкодера и получают улучшение по метрикам. Это показывает, что aligner-head может использоваться как самостоятельный механизм выравнивания.

Несмотря на то, что в названии статьи сделан акцент на выравнивание, главная польза модели — в скорости и простоте. В сравнительном эксперименте все модели были одного размера (100 млн параметров). На обучении Aligner оказался в 10 раз быстрее RNN-T (29 мс против 290 мс на шаг), главным образом за счёт отказа от сканирования по временной оси в join-сети. Это также позволило снизить пиковое потребление памяти на 18 % (−1.4 ГБ). На инференсе модель тоже самая быстрая: каждый шаг декодера занимает 0,19 мс против 8,5 мс у AED. Общая сложность — O(U), тогда как у RNN-T — O(U+T), где U — длина текста, T — длина аудио. Переупорядочивание гипотез в beam почти не требуется. Отдельно подчёркивается, что хоть AED и делает шаги почти так же быстро, как Aligner, благодаря трансформерной природе он сходится за меньшее число итераций.

Илья Новицкий ❣ Специально для Speech Info

Как прошла ICLR 2025: впечатления инженеров Яндекса

Wed, 16 Jul 2025 09:53:47 +0000

Как прошла ICLR 2025: впечатления инженеров Яндекса

Мы попросили инженеров Яндекса подвести личные итоги конференции ICLR 2025 и рассказать, чем она запомнилась. О трендах в индустрии, интересных статьях на тему аудио и впечатлениях — в наших карточках.

Работы и ссылки, которые упоминаются в посте:

— π0.5: a VLA with Open-World Generalization
— Scaling Transformers for Low-Bitrate High-Quality Speech Coding
— MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
— UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation
— FlowDec: A flow-based full-band general audio codec with high perceptual
— Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised Disentanglement
— Announcing the Test of Time Award Winners from ICLR 2015

Speech Info

#YaICLR

Как TortoiseTTS изменил правила игры в синтезе речи

Thu, 10 Jul 2025 08:05:37 +0000

Как TortoiseTTS изменил правила игры в синтезе речи

В 2017–2019 годах TTS-сообщество начало учиться на заметно больших объёмах данных, чем до этого, и выбирало между двумя классами моделей, которые можно обучать. Первый вариант — взять трансформер из NLP и научить его предсказывать аудиотокены. Второй — использовать диффузии, как в генерации изображений, и генерировать спектрограммы. Оба варианта давали частичный результат. Диффузии хорошо передавали голос, но интонацию — слабо. Трансформеры, наоборот, хорошо моделировали интонацию, но теряли сходство с голосом.

В 2022 году инженер Джеймс Беткер, много лет проработавший в Garmin, решил пойти другим путём. В одиночку он начал собирать свою модель дома! Он купил восемь б/у RTX 3090, которые до этого майнили крипту, собрал из них кластер, и два года вёл блог, в котором подробно описывал каждую итерацию своего ресёрча. Формат — не статьи с графиками, а Markdown и картинки от руки. Иногда — просто пост с одной мыслью и решением.

Спустя два года такой работы появился TortoiseTTS. Гибрид трансформера и диффузии, вдохновленный архитектурой DALL-e 1, только вместо изображений — аудио.

Что сделал Беткер:

1. Сначала — кодек. Беткер обучил VQ-VAE, который сжимал аудио до 25 токенов в секунду. Это довольно маленький битрейт для получения качественного восстановления, но такой цели и не стояло — кодек нужен был как интерфейс между аудио и трансформером.

2. Потом — трансформер. Модель по тексту и примеру голоса, который надо скопировать, предсказывала токены этого кодека. Поскольку токенов было мало, он мог использовать большие батчи, что критично при ограниченных ресурсах. Но важнее другое: трансформер давал не только токены, но и латенты, из которых эти токены предсказываются. (Они понадобятся нам на следующем этапе.) Именно этот кусок пайплайна отвечает за генерацию правильной похожести голоса и разумные интонации.

3. Дальше — диффузия. По примеру голоса и сгенерированным GPT латентам она предсказывала спектрограмму. Задача этой модельки в том, чтобы получившаяся запись была качественной и хорошо сохранилась похожесть голоса.

4. В конце — предобученный вокодер UnivNet, который предсказывает аудио по спектрограмме.

В результате получился пайплайн: текст → латента (из GPT) → спектрограмма (из диффузии) → аудио. В модельке есть ещё несколько хаков, но мы не останавливаемся на них, чтобы упростить повествование.

За счёт комбинации GPT и диффузии этому способу удалось усесться на оба стула: он хорошо моделировал интонацию и клонировал голос. И это обучилось на кластере из восьми видеокарт!

После выхода Tortoise в 2022 году появилось много похожих работ. Например:

— CosyVoice (Alibaba): заменили VQ-VAE на кодек, обученный на ASR-задаче, чтобы эмбеддинги хранили больше информации о речи. Вместо диффузии применили Flow Matching — он даёт звук быстрее за меньшее число шагов.
— Seed-TTS (ByteDance): заменили токенизатор, отказались от CLVP, дообучили модель на 5 голосах.
— Base TTS (Amazon): взяли большую GPT (1B параметров вместо 300M) и использовали токены из WavLM.

Получается, что Tortoise стал не столько готовым решением, сколько универсальной схемой, которую подхватили сразу несколько крупных команд. Ну а Джеймса Беткера наняли в OpenAI сразу после релиза финальной версии модели.

Эта история — только малая часть интересного из Speech Сourse от Яндекса и ШАД. Все лекции, слайды, домашки и полезные ссылки выложены на GitHub. Курс охватывает биометрию, распознавание, синтез, шумоподавление. А на тему TTS — целых четыре лекции.

Роман Кайль ❣ Специально для Speech Info

Обзор статей с ICASSP 25. Часть 3: LLM для улучшения в ASR

Fri, 04 Jul 2025 08:43:36 +0000

Обзор статей с ICASSP 25. Часть 3: LLM для улучшения в ASR

Две статьи от Meta* с ICASSP 2025 показывают, как сократить число вызовов декодера в ASR: в одной модель сразу предсказывает несколько токенов, в другой — принимает только те, у которых логиты выше порога. Разбираем, как устроены эти методы и как они влияют на скорость и WER.

Efficient Streaming LLM for Speech Recognition

Статья о стриминговой ASR-модели SpeechLLM-XL. Её архитектура состоит из двух компонентов: аудиоэнкодера и LLM-декодера. На вход декодеру одновременно подаются выходы аудиоэнкодера (как в обычной ASR) и токены, которые декодер уже успел предсказать.

В обычном последовательном предсказании на вход сразу передаются звуковые токены, а затем модель догенерирует предсказание по одному токену — и каждый раз сгенерированный токен добавляется ко входу. Таким образом модель работает в decoder-only-режиме.

Основная сложность со стримингом в том, что нужно попеременно передавать новый полученный звук и текстовые токены, которые предсказала модель. Это делается следующим образом. Во время инференса модель обрабатывает аудио по чанкам. После каждого декодер может сгенерировать не один токен, а сразу несколько — пока не встретит специальный маркер конца предсказания. Это позволяет системе работать в стриминге и не откладывать вывод до самого конца. Такой режим авторы реализуют через модифицированную схему тренировки, где модель учат предсказывать текст по частичному аудиоконтексту.

Особенность SpeechLLM-XL — в устройстве генерации: в каждый момент LLM-декодер видит и текущий аудиочанк, и собственные предыдущие предсказания. Это позволяет ему лучше моделировать зависимость между звучанием и текстом, особенно в условиях ограниченного контекста.

Авторы сравнивают свою модель с другими стриминговыми ASR-решениями. По качеству SpeechLLM-XL обходит все перечисленные в работе бейзлайны на dev-наборах LibriSpeech. Например, на clean-части она показывает WER 2,5% против 2,9% у Transducer и 2,7% у ReaLLM при схожем размере чанка и lookahead — хотя сложно не заметить, что в целом скоры у бейзлайнов великоваты.

Faster Speech-LLaMA with Multi-token Prediction

Авторы пытаются ускорить LLM-декодер в ASR. Идея в том, что вместо генерации одного токена за раз, как в обычной LLM, они учат декодер предсказывать сразу несколько токенов. Чтобы не вызывать LLM отдельно для каждого из них, добавляют в декодер несколько «голов» — по числу токенов, которые нужно предсказать. Эти головы работают параллельно: каждая предсказывает свой токен, зная предыдущие.

Получается схема из трёх шагов:

1) Predict: модель сразу предсказывает K токенов.
2) Verify: среди них ищем самую длинную префикс-последовательность, которую можно подтвердить более строгим one-step-декодером.
3) Accept: принимаем только подтверждённые токены и продолжаем с новой гипотезой.

Это позволяет сократить число вызовов декодера без сильной потери качества. На графике видно, как число вызовов на слово (ось Y) падает, особенно при 4–6 головах, а качество (WER по оси X) остаётся на уровне. Лучший компромисс — 4 головы: ускорение ×2, при этом WER почти не растёт.

Верификацию авторы реализуют двумя способами:

— по порогу вероятности;
— по позиции гипотезы в top-N (например, если гипотеза оказалась в топ-5, то её можно принять).

Интересно, что при увеличении числа голов качество даже немного улучшалось. Хотя авторы отмечают это только на LibriSpeech, а на других датасетах наблюдается небольшая просадка.

По сути, это доработка идеи DeepSeek: там тоже пробовали multi-token prediction, но здесь её применили именно в ASR.

Алексей Рак ❣ Специально для Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.

DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization

Fri, 27 Jun 2025 07:45:01 +0000

DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization

Сегодня разберём статью о синтезе речи с помощью диффузионных моделей. Авторы из Adobe Research утверждают, что им удалось избавиться от главного недостатка такого подхода — медленного итеративного инференса — при помощи оригинального метода дистилляции.

Называется новый метод Direct Metric Optimization. Именно он вкупе с уже известной (но не очень популярной) методикой дистилляции DMD и бейзлайн-архитектурой Latent Speech Diffusion позволяет улучшить качество генераций.

Latent Speech Diffusion — диффузионный трансформер, оперирующий в пространстве непрерывных латентов (continious latents). Латенты авторы получают из чистой wave-формы при помощи энкодера дискретного аудиокодека. Потом добавляют к ним шум, U-net-подобной архитектурой итеративно расшумляют и декодируют с помощью стандартного диффузионного лосса.

Поскольку модель не авторегрессионная, размерность выхода необходимо знать заранее. Её выясняют, перемножая количество фонем на speaking rate речевого промпта.

Метод DMD работает так: расшумлённый результат ученика в заданный момент времени приближают к аналогичному результату учителя от одного зашумлённого латента. Для этого обучают специальную состязательную модель:

- при помощи дискриминатора отличать результаты ученика и учителя;
- сокращать за счёт ученика разницу между ним и учителем.

Предложенный метод генерации речи — end-to-end. Это значит, что в обучение для Direct Metric Optimization можно добавлять SV- и ASR-лоссы.

Аудиосэмплы доступны на GitHub.

Дмитрий Попов ❣ Специально для Speech Info

Synthio, Fugatto и MMAU: интересное с аудио на ICLR 2025

Fri, 20 Jun 2025 12:36:41 +0000

Synthio, Fugatto и MMAU: интересное с аудио на ICLR 2025

На ICLR в этом году было не так много статей на тему аудио, но несколько интересных работ всё же встретились — продолжаем разбирать их в этом и следующих постах.

Сегодня расскажем, как синтетические данные помогают обучать аудиоклассификаторы (Synthio), об универсальной модели, которая по тексту и аудио решает множество задач (Fugatto), и о свежем бенчмарке на понимание сложных аудиозадач — от ритма до аккордов (MMAU).

Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

В статье предлагают пайплайн для генерации синтетических аудиоданных с помощью T2A-модели, которая по текстовому описанию создаёт аудио. Её сначала выравнивают на основе предпочтений, используя ограниченное количество размеченных примеров. После этого модель генерирует синтетику, пригодную для задач классификации.

На втором этапе добавляют фильтрацию: оценивают соответствие между текстом и аудио и отбирают качественные пары. Дополнительно текст можно уточить с помощью LLM. На выходе — расширенный синтетический датасет, который даёт прирост точности в разных аудиоклассификационных задачах.

Fugatto 1: Foundational Generative Audio Transformer Opus 1

Fugatto — универсальная аудиомодель, которая по текстовому описанию и/или аудиопримеру решает задачи синтеза речи (TTS), преобразования голоса (VC), генерации аудио по тексту (T2A), шумоподавления и другие. Всё в одной архитектуре.

Модель построена на flow matching — это позволяет отказаться от GAN-дискриминаторов и легче масштабировать обучение. В качестве данных собирают максимально разнообразные открытые датасеты по всем типам задач. Для генерации инструкций, которым должна следовать модель, используют LLM: она пишет код на Python, который вызывает нужный аудиоэффект (например, через библиотеку Pedalboard).

Авторы показывают emergent-эффекты: модель способна выполнять необычные преобразования, которых явно не было в обучении — например, «лающий женский голос» или «мяукание саксофона». Также они демонстрируют, как можно итеративно прогонять сэмплы между A2T- и T2A-моделью, уточняя выходы на каждом шаге.

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Авторы собрали бенчмарк из 10 000 аудиозаданий, вручную размеченных специалистами. Каждое задание состоит из аудио, текстового вопроса и нескольких вариантов ответа. Примеры задач — от понимания какой конкретный звук длится дольше всего на аудио до музыкального анализа: нужно определить аккорд-прогрессию, ритмический рисунок или эмоциональную окраску.

Бенчмарк сложный: требует не просто услышать звук, но и понять его структуру. Некоторые модели (например, MuLaLaMa и SALMONN) почти не теряют точности при замене аудио на шум — значит, не используют сам звук. А вот Gemini 1.5 Pro и Qwen2 действительно извлекают аудиосигнал: при шуме качество падает. Gemini 1.5 Pro лучше всего справляется с задачами фонетического анализа.

MMAU подчёркивает важность реального аудиопонимания: на нём даже сильные мультимодели работают на уровне 59% точности. Из аблейшна авторов следует, что основная доля ошибок приходится на perceptual errors. То есть моделям пока сложно понимать, что именно происходит на записи.

Влад Батаев ❣ Специально для Speech Info

#YaICLR

Обзор статей с ICASSP 25. Часть 2: голосовая активация

Wed, 11 Jun 2025 10:05:31 +0000

Обзор статей с ICASSP 25. Часть 2: голосовая активация

В прошлой части рассказали о работах на тему шумоподавления в наушниках, теперь переходим к голосовой активации. Сегодня кратко о двух статьях: одна — о визуальном споттере (активация по звуку и видео, но без активационной фразы), вторая — о кастомных keyword spotters.

An Efficient and Streaming Audio Visual Active Speaker Detection System

Статья от Apple на тему детекции активного спикера в стриминговом видео с помощью аудио- и видеосигналов. Такая задача уже решается в колонках Amazon и Google. Архитектура построена на двух похоже устроенных энкодерах: аудио- и визуальном. В них используются каузальные свёртки, которые не «заглядывают» в будущее — это важно для стриминга.

После извлечения признаков фреймы выравниваются и объединяются, чтобы для каждого момента времени были и аудио-, и визуальные фичи. Поверх этого авторы обучают трансформер. Трансформеру за счёт использования масок также ограничивали возможность «заглядывать» в будущее.

Ключевое исследование — о том, какие маски использовать в трансформере: сколько контекста из прошлого и будущего ему давать. Контекст из будущего начинает помогать, только если в модель уже подаётся достаточно длинный контекст из прошлого — примерно от 15 фреймов.

По ощущениям, решение довольно зрелое: авторы утверждают, что обучали модель не только на YouTube, но и на внутренних данных.

SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting

Ещё одна статья — о кастомных keyword-spotters: пользователь задаёт произвольную фразу, на которую должна реагировать модель. На эту тему в последнее время выходит довольно большое количество статей. Для начала GPT-подобная модель превращает текст в последовательность фонем.

Архитектура включает fully connected-слой, который кодирует фонемы в эмбеддинги, и аудиопарсер, который учится по звуку восстанавливать ту же последовательность. Главная особенность работы — продуманные лоссы, которые помогают модели устойчиво обучаться.

Во-первых, аудиомодель учат предсказывать последовательность фонем — это даёт хорошую привязку к произнесённому тексту. Во-вторых, добавляют рантайм-механизм сопоставления между аудио и заданной последовательностью: с помощью cross-attention проверяют, совпадают ли векторы в нужных местах. И в-третьих, делают то же самое, но уже для всех префиксов заданной последовательности. Если на нужной фонеме случается несовпадение — срабатывает сигнал об ошибке.

Если первые два пункта уже встречались ранее, то третий — нововведение этой статьи, которое, судя по результатам, приносит заметный прирост по качеству.

Основной вывод: такой подход с дополнительными лоссами и проверкой совпадений позволяет сильно улучшить точность детекции по сравнению с базовыми моделями. Концепция не совсем новая, но реализация аккуратная и работающая.

В следующей части обзора расскажем о двух LLM для улучшения ASR.

Алексей Рак ❣ Специально для Speech Info

Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках

Thu, 05 Jun 2025 08:00:00 +0000

Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках

В апреле в Индии прошла конференция ICASSP 2025, на которой побывал руководитель группы встроенного голосового ввода Алексей Рак. В этом году обошлось без откровений, но кое-что любопытное всё же нашлось. Пожалуй, главный тренд: заметно меньше статей о колонках — индустрия уходит в наушники и стриминг. В этом и следующем постах разберём интересные статьи с конференции — начнём двух работ о шумоподавлении в наушниках.

Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables

Статья от Google о шумоподавлении в режиме прозрачности для наушников. Такая технология нужна, когда не хочешь снимать наушники, но хочешь слышать речь вокруг. При этом нужно, чтобы голоса усиливались, а шум — наоборот, глушился. Но вся магия работает, только если нет сильной задержки. Иначе речь дублируется, так как амбушюры не полностью поглощают речь, а наушники проигрывают очищенные разговор с задержкой. Поэтому важно уложиться в лаг в пару миллисекунд.

Авторы сделали компактную нейросеть, которая предсказывает параметры FIR-фильтра — по сути, какую свёртку применить к звуку. Эта свёртка обновляется каждые 8 мс, но применяется сразу к новым аудиофрагментам, так что задержка остаётся минимальной — 2–3 мс (алгоритмическая задержка — 1 мс, а всё остальное — вычислительная). Работает даже на слабом железе — тестировали на 600 MHz HiFi4 Audio DSP(Cadence), и там всё летает.

Статья даёт понять, насколько вообще можно опустить задержку в таких системах, если аккуратно подойти к задаче и сделать лёгкую модель.

BONE CONDUCTED SIGNAL GUIDED SPEECH ENHANCEMENT FOR VOICE ASSISTANTON EARBUDS

Ещё одна статья о шумоподавлении, но уже для очистки того, что пользователь наушников говорит, а не слышит. Человек говорит в шумной обстановке (на улице, на ветру, в метро), и сам этого может даже не замечать. Снаружи всё гудит, а внутри уха — тишина. Только вот собеседнику слышно совсем не так.

В современных наушниках уже есть не только внешние микрофоны, но и внутренние, которые улавливают сигнал через кость черепа. Он искажён, но в нём почти нет внешнего шума. Его и используют.

Вход у модели — два канала: грязный внешний микрофон и искажённый, но «чистый» костный сигнал. Всё это подаётся в Cleanformer — это их старая модель, адаптированная под такую задачу. Cleanformer предсказывает маску, которую потом накладывают на внешний сигнал, чтобы его «почистить»: сохранить полезные частоты и убрать шум. Похожую модель Google использует уже довольно давно для очистки звука в умных колонках.

Цель — сделать так, чтобы в особо шумных условиях голос всё равно звучал понятно. Для реального применения такой подход годится, если в устройстве есть костный канал — а он уже есть во многих моделях наушников.

В следующей части разберём пару работ о голосовой активации.

Алексей Рак ❣ Специально для Speech Info

Moshi в деталях: новая архитектура диалоговой системы в реальном времени. Часть 2/2

Tue, 27 May 2025 08:05:48 +0000

Moshi в деталях: новая архитектура диалоговой системы в реальном времени. Часть 2/2

Продолжаем разбирать Moshi — диалоговую систему, которая совмещает распознавание, чат-бота и синтез речи в одной модели. В первой части речь шла о LLM Helium и аудиокодеке Mimi. Здесь — о том, как устроена сама Moshi и как работает механизм переключения между «слушать» и «говорить».

Moshi

На следующем этапе авторы хотят научить текстовую LLM Helium аудиомодальности, а конкретно — предсказывать токены от Mimi. Да ещё и так, чтобы модель не потеряла свои LLM-ные знания.

Наша задача — предсказывать матрицу из токенов с размерностями времени на 8 кодеков. Для этого модель Moshi состоит из двух трансформеров: Temporal Transformer и Depth Transformer.

Temporal Transformer — это большой трансформер, проинициализированный весами Helium. Он будет авторегрессивно идти по размерности времени и генерировать эмбеддинг для каждого тика времени. Depth Transformer инициализируется шумом. Его задача — на каждом шаге Temporal Transformer-a закондишениться на сгенерированный эмбеддинг и развернуть его в 8 Mimi-токенов.

Учиться вся эта конструкция будет в три этапа. Тут опускаем много подробностей, но идея примерно такая:

1. Учимся на огромном, шумном audio-only датасете. На этом этапе моделька познаёт аудиомодальность и пытается соотнести её с текстовой модальностью.

2. Учимся на синтетических диалоговых данных. Здесь модель учиться слушать и слышать одновременно, подстраивается под диалоговый формат (так называемый full-duplex-режим).

3. Тюнимся на более качественном диалоговом датасете. Модель обретает свой голос и выучивает более осознанные диалоговые ответы.

Важнейшая фича Moshi — full-duplex: способность модели одновременно слушать и говорить. С ней диалог получается плавнее и человечнее, в нём могут быть одновременные реплики, перебивания и междометия. Модель достигает режима full-duplex с помощью алгоритма Inner Monologue.

Inner-monologue

Для начала, мы хотим сделать так, чтобы одно и то же слово, представленное в виде текстовых токенов и в виде аудиотокенов, занимало одно и то же количество токенов. Для этого авторы взяли датасет и модель WhisperV3 и сделали алайнмент. То есть для каждого слова в тексте нашли время, когда оно начинает и заканчивает произноситься. После этого авторы взяли специальные паддинг-токены и в текстовой модальности добавили их после каждого слова — столько, чтобы по длине они совпадали с количеством токенов, которое занимает это слово в аудиомодальности.

Дальше мы хотим учить модельку на этих данных. Тут полезно посмотреть на картинку.

— Мы хотим, чтобы в каждый момент времени наша моделька работала с тремя стримами информации: аудио, которое произносит пользователь (8 токенов), аудио, которое произносит Moshi (8 токенов), и текст, разбавленный паддингами, который произносит Moshi (1 токен). На картинке они показаны сверху вниз.

— Мы хотим все три стрима подавать на вход к модельке. Соответственно для каждого стрима токенов будет своя матрица эмбеддингов, которые в итоге складываются.

— На выход мы хотим получать только текст и аудио реплик. На картинке — это оранжево-жёлто-зелёные (каждый цвет — отдельное слово) токены. Текст предсказывает линейная голова поверх Temporal Transformer, а для аудиотокенов есть Depth Transformer.

— В такой парадигме моделька учится и инферится.

Moshi вышла 7 месяцев назад и, кажется, уже потихоньку устаревает. Если попользоваться демкой, сначала она приводит в восхищение, но потом становятся заметны косяки: модель говорит глупости, неуместно перебивает, начинает отвечать с большой задержкой. Она ощутимо слабее, чем, например, VoiceMode от OpenAI. Но у ребят подробная статья, много интересных выводов и экспериментов, а также выложенный в открытый доступ кодек. Это довольно большой вклад в область.

Роман Кайль ❣ Специально для Speech Info

Moshi в деталях: новая архитектура диалоговой системы в реальном времени. Часть 1/2

Wed, 21 May 2025 08:04:46 +0000

Moshi в деталях: новая архитектура диалоговой системы в реальном времени. Часть 1/2

Разбираем статью о real-time dialogue-модели Moshi, которая, в отличие от предыдущих диалоговых систем, объединяет в одной архитектуре три компонента: ASR (распознавание речи), LLM (языковая модель) и TTS (синтез речи). Такая схема позволяет воспринимать речь и генерировать ответ одновременно. Управление тем, когда говорить и когда слушать, реализовано через специальный управляющий токен. (Даже я не всегда так умею — прим. автора).

Архитектура модели состоит из четырёх частей, и у всех звучные названия. В этом посте уместим разбор двух первых частей, а в следующем — ещё двух.

Helium

Простая текстовая модель, предсказывающая следующий токен.

Претрейн модели проводился на 2,1 трлн токенов. (Для сравнения: Llama 2 — 1,8 трлн, Llama 3 — 15,6 трлн). Данные собирали, фильтруя CommonCrawl — огромный дамп интернета, где много мусора, но если хорошо почистить, получается неплохой датасет. В итоге датасет состоит из 87,5% CommonCrawl и 12,5% Wikipedia.

После претрейна провели три дополнительных этапа обучения: пост-тренировку, файнтюнинг и инструкционное обучение — чтобы модель лучше справлялась с диалогами. По оценке авторов, Helium сравнима с Llama 2 и первым Mistral, но не дотягивает до Llama 3.

Mimi

Нейросетевой аудиокодек на основе Residual Vector Quantization (RVQ). Архитектура — стандартный энкодер-декодер, но с интересными деталями: обычно в аудиокодеках используются только свёрточные слои, а тут добавили трансформеры — в конце энкодера и в начале декодера. Это сделало кодек умнее (и тяжелее).

Ещё одно важное отличие Mimi от остальных аудиокодеков — у него довольно маленькая герцовка. Mimi нужно 12,5 векторов, чтобы закодировать секунду аудио. Для сравнения у EnCodec — 75, WavTokenizer — 40. За счёт этого трансформер поверх такого кодека можно учить с бóльшим батчем (в секундах) и быстрее инферить.

Набор лоссов у Moshi примерно такой же, как и у HiFi-GAN-a. Единственное отличие — это то, что авторы убрали L1-loss между STFT-спектрограммами, из-за плохой корреляции с человеческим восприятием. Без него субъективные метрики получались лучше.

Главное ноу-хау Mimi — семантическая дистилляция, которая позволяет получить акустические токены со свойствами семантических.

Акустические токены создаются кодек-моделями вроде Mimi. Из них можно хорошо и качественно восстановить аудиозапись, но они плохо кодируют смысл и плохо связаны между собой. Из-за этого дальнейшей модели (в нашем случае — Moshi) сложно их предсказывать.

Семантические токены делаются SSL-моделями — здесь это WavLM. Эти токены хорошо связаны между собой, они кодируют смысл сказанного в аудиозаписи. Но они не предназначены для того, чтобы восстанавливать из них аудиозапись.

Получается, что нужны акустические токены со свойствами семантических — это то, чего авторы пытались достичь семантической дистилляцией.

Решение — дистиллировать семантические эмбеддинги WavLM в акустические эмбеддинги Mimi. Для этого нужно посчитать косинусное расстояние между эмбеддингами WavLM и Mimi и использовать это как дополнительную компоненту лосса. Есть одна проблема — у моделей разные герцовки: у WavLM — 50, а у Moshi — 12.5, в 4 раза реже. Мы не можем просто посчитать косинусное расстояние между соответствующими эмбеддингами. Чтобы справиться с этим, авторы применили AveragePooling со stride-ом 4 к последовательности эмбеддингов из WavLM и привели обе последовательности к одной частоте — 12,5.

В следующей части разберём главное об устройстве модели Moshi и алгоритма Inner-monologue.

Роман Кайль ❣ Специально для Speech Info

WavChat: A Survey of Spoken Dialogue Models. Часть 4/4

Tue, 13 May 2025 08:05:41 +0000

WavChat: A Survey of Spoken Dialogue Models. Часть 4/4

Публикуем последнюю часть классификации и выводы из большого обзора современных разговорных ИИ.

В предыдущих сериях: 1, 2, 3.

Классификация по подходу к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс. Стриминговая модель может обрабатывать запросы пользователя прямо в процессе их появления, не дожидаясь конца монолога. Например, Qwen, нестриминговая модель — она ждёт, пока вы договорите, и обрабатывает всё аудио, прежде чем ответить. В настоящем же диалоге всё по-другому: собеседник слушает и осмысляет вашу реплику непрерывно, и может начать отвечать после неё с минимальной задержкой. Нестриминговые модели могут работать в симплекс-подходе, когда диалог больше похож на обмен голосовыми сообщениями.

Полудюплекс включает в себя автоматическое определение конца речи, после которого она обрабатывается и ответ возвращается в виде аудио — как это реализовано в Alexa, Алисе и других умных помощниках.

В полноценной дюплекс-реализации модель каждый чанк времени обрабатывает входящие реплики и генерирует выходные. Когда она слушает, она генерирует тишину или поддакивает, показывая что на связи. А если её перебить, сможет естественно остановиться, договорив слово до конца. Так получаются наиболее живые диалоги, но попытку сделать полноценный дюплекс на момент написания статьи сделали только в Moshi.

Ещë в статье была часть про бенчи, которая скорее расстроила: эффективно измерять качество именно диалоговых систем пока толком не на чем. Есть замеры, которые сравнивают отдельные аспекты «умности» диалоговых систем/ALM. При этом у выигрывающих по бенчам статей далеко не всегда самые впечатляющие демо.

Если пытаться идти вглубь и смотреть, как сравниваются исходные статьи, то можно найти противоречия даже в базовых замерах. Например, в задержках.

Авторы проделали большую работу: собрали и систематизировали значимые статьи. Но аспекты, по которым они проводили систематизацию, коррелируют между собой, поэтому обзор повторяется, переходя от одного к другому. Например, парадигма тренировки на 90% определяется выбором представления звука.

Для себя я вынес следующее:

1. SpiritLLM, Moshi, SyncLM — интересные реализации диалоговых систем.

2. Победят акустические токены + длительная стадия пост-претрейна на большом объёме аудио + файнтюн на диалогах (даже синтезированных). Но это не точно.

3. Нормальных бенчей нет.

4. Дюплекс — правильный путь, но работает пока только у Moshi, и то плохо. Спойлер, выходящий за пределы этого обзора: кажется, у Sesame.com получилось.

5. Статей становится всё больше, так что будущее — за e2e-диалоговыми системами.

Итоговый вывод: скам статья или не скам? На мой взгляд, статья — не скам. Например, с неё будет полезно начать, чтобы понять, что вообще происходит в отрасли.

Никита Рыжиков ❣ Специально для Speech Info

WavChat: A Survey of Spoken Dialogue Models. Часть 3/4

Mon, 05 May 2025 08:41:15 +0000

WavChat: A Survey of Spoken Dialogue Models. Часть 3/4

Продолжаем пошагово разбираться в классификации, которую предлагают в большом обзоре актуальных разговорных систем.

В предыдущих сериях: 1, 2.

Классификация по парадигме тренировки: использовали ли постпретрейн, какие задачи решали. Основной тейк этой части классификации довольно очевидный. Текстовые модели добились значительных успехов, а вот остальные (в том числе акустические), пока не могут похвастаться ни размером обучающих корпусов, ни количеством электричества, которое тратят на их обучение. Для выхода из этого тупика, нужно, чтобы при добавлении аудиомодальности тренировочная парадигма позволяла использовать мощности существующих текстовых моделей. Нужно научиться хорошо конвертировать входные запросы в акустические токены, а потом также хорошо оперировать ими. То есть, в обучении должны быть задачи, решение которых требует обуславливаться на аудиоконтекст. Например, задача ASR.

Авторы рассматривают разные способы объединять текстовые и аудиоданные на этапе тренировки (как на картинке). Но одними из самых многообещающих считают интерливинг и chain-of-modality.

Оба этих подхода позволяют учиться на больших корпусах частично структурированных данных, запоминая как структуру аудиоданных, так и взаимное обусловливание речи и текста друг на друга. А вот обучение адаптера в text-only-output-парадигме на большом наборе датасетов из разных задач (как было в SALMONN и Qwen-Audio) авторы считают не очень жизнеспособным. Полноценно обучить синтезу, в отрыве от других задач, нельзя — а значит, диалог с такой моделью проиграет в естественности другим подходам.

Из этой части лично я сделал вывод, что в диалоговых системах критично наличие постпретрейн-стадии для аудиомодальности. Во-первых, хорошие диалоговые системы, представленные в статье, по большей части основаны на этой парадигме. Во-вторых, интуиция подсказывает, что за счëт такой стадии можно выиграть в выразительности синтеза и использовать большие датасеты неструктурированных аудиоданных.

Продолжение следует.

Никита Рыжиков ❣ Специально для Speech Info

Кто о чём, а мы — продолжаем делиться постерами с ICLR!

Mon, 28 Apr 2025 14:35:47 +0000

Кто о чём, а мы — продолжаем делиться постерами с ICLR!

Несём ещё несколько любопытных работ, которые заметили и прокомментировали наши засланные казачки.

Restructuring Vector Quantization with the Rotation Trick

Чтобы лучше реконструировать входные данные в VQ-VAE, нужен всего лишь простой советский... Rotation trick! Суть идеи в том, что за счёт поворота центры кластеров сдвигаются в разные стороны, что заставляет лучше использовать векторы в кодбуке. Добавляются три строчки кода без замедления обучения — и получается качество реконструкции на уровне VQ-GAN. Есть код — и, учитывая простоту имплементации, решение можно будет легко попробовать на практике.

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Vision-Language Model Dialog Games for Self-Improvement

Две независимые друг от друга работы. В первой — сделали несколько процедурно генерируемых игр. Стэйты игр скармливали разным LLM в текстовом и визуальном формате и замеряли качество работы — лучшие результаты у Gemini. Во второй статье отметили, что Gemini «из коробки» неплохо справляется с процедурно генерируемыми играми разной семантики. (Есть предположение, что Google использует текстовое описание партий игр, как источник данных на претрейне).

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Авторы предложили бенчмарк для сравнения моделей распознавания речи по разным аспектам: устойчивости к шуму, far-field и акценту. Правда, в их формуле расчёта упоминается не самая надёжная метрика PESQ, а обсудить этот выбор на месте, к сожалению, было не с кем: авторы не приехали.

Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling

Собрали датасет с YouTube — выбрали записи с чистой игрой на пианино. На основе них с помощью пайплайна MAESTRO подготовили датасет, который можно использовать для генеративной музыки. Также обучили модель, которая делает MIDI-транскрипцию аудиофайлов. Бонус: на постере есть красивая визуализация со сравнением композиторов (в самой статье её нет).

Никита Рыжиков, Степан Комков и Влад Батаев ❣ специально для Speech Info

#YaICLR