Speech Info — пост #110

Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 1

За прошедший год накопилось много интересных работ на тему голосовых технологий. Статьями, которые стоит перечитать и сохранить, поделились эксперты нашего канала. Продолжать список можно ~~бесконечно~~ в комментариях.

Beyond Transcription: Mechanistic Interpretability in ASR

Статья переносит mechinterp-инструментарий из NLP в ASR, делая это системно и на крупных моделях (Whisper-large-v3 и Qwen2-Audio). Авторы адаптируют logit lens, линейные пробы и activation patching под ASR и вводят новый метод Encoder Lens для «развертывания» промежуточных представлений энкодера в текст. Благодаря этому получается показать ряд не описанных ранее явлений (наличие неявной информации в энкодере; возможность предсказывать галлюцинации по residual декодера; механизм повторения токенов в self-attention).

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

Авторы предлагают метод delayed fusion для интеграции LLM в первый проход декодирования ASR, который принципиально отличается от классических shallow fusion и N-best rescoring тем, что:
1) применяет LLM‑оценки к гипотезам с задержкой и после прунинга в ходе поиска, тем самым резко сокращая число оцениваемых гипотез и LLM-вызовов при сохранении влияния LLM уже на первом проходе;
2) позволяет на лету ретокенизировать гипотезы по словесным границам и тем самым без переобучения использовать LLM с другой лексикой/токенизацией, тогда как стандартный shallow fusion требует совпадения словаря ASR и LM или дорогостоящего дообучения;
3) вводит настраиваемый механизм управления моментом вызова LLM (стратегии shortest-hypothesis fusion и fixed-interval fusion).

Music Flamingo: Scaling Music Understanding in Audio Language Models

Статья о новой ALM, специально заточенной под глубокое понимание музыки, включая вокальные композиции. Основные вклады авторов — создание масштабных датасетов MF-Skills и MF-Think с многоуровневыми описаниями и цепочками рассуждений, основанными на теории музыки, а также предложение поэтапного подхода к обучению, сочетающего дообучение на мультиязычных ASR-данных, тонкую настройку на музыкальных задачах и RL-стадию с GRPO.

Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering

Работа о стриминговой диаризации: модель в реальном времени получает аудио и сразу выдаёт вероятности по спикерам, без классического каскада «сегментация → эмбеддинги → кластеризация». Ключевая идея — держать кэш эмбеддингов уже встреченных спикеров и подавать его вместе с текущим аудиофрагментом, постоянно обновляя (спикеры в кэше упорядочены по времени появления). Ограничение простое: число спикеров фиксировано архитектурно — модель нельзя безболезненно перенести на сильно большее количество, чем было на обучении. Зато на нескольких датасетах она обгоняет бейзлайны и прошлую офлайн-версию, оставаясь пригодной для реалтайм-сценариев.

Продолжение следует.

Статьи отобрали ❣ Екатерина Козлова, Борис Шелудько
Speech Info