Speech Info — пост #111

Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 2

Настраиваемся на конец рабочей недели и вспоминаем ещё несколько полезных статей прошедшего года. Выбрали и прокомментировали их авторы нашего канала.

CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training

В работе представлена новая версия модели CosyVoice для zero-shot-синтеза речи. Ключевые улучшения:
1) новый речевой токенизатор — использует FSQ (25 ток./с) и обучается на основе LM MinMo с помощью многозадачного обучения (ASR, SER, AED, LID, SID);
2) дифференцируемая оптимизация награды (DiffRO) — новый подход для дообучения моделей синтеза речи на основе LLM, который позволяет напрямую оптимизировать речевые токены;
3) масштабирование данных (до 1 млн часов, 9 языков, 18 китайских диалектов) и модели (с 0,5B до 1,5B параметров).
CosyVoice 3 показывает существенное улучшение по сравнению с предыдущей версией, а также покрывает больше языков. Недавно авторы выложили в открытый доступ модель CosyVoice3-0.5B.

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

IndexTTS2 — авторегрессионная zero-shot TTS-модель, которая решает две ключевые задачи: контроль длительности и разделение управления между идентичностью спикера и эмоцией. Длительность можно задавать явно, подавая в LM число токенов, которые нужно сгенерировать. А использование GRL при обучении для отделения эмоциональных признаков от идентичности спикера позволяет применять два промпта: один для стиля, второй — для тембра. Также предложен способ управления эмоцией по текстовому промпту: знания дистиллируют из DeepSeek-R1, чтобы по тексту предсказывать распределение по семи базовым эмоциям в меньшую LM-модель. На инференсе эмбеддинг эмоции вычисляется как взвешенная сумма фиксированных эмбеддингов, полученных из аудиопримеров для каждой базовой эмоции.

Adaptive Knowledge Distillation for Device-Directed Speech Detection

В Apple предлагают детектить обращение к устройству без триггерной фразы — по одной интонации, но с ограничениями (например, режим включается только вскоре после взаимодействия с девайсом), чтобы не ловить лишние срабатывания. Обучают небольшой on-device-энкодер сразу на три задачи: Hey Siri, Siri и интонационную активацию, а качество подтягивают через дистилляцию из замороженного ASR-энкодера на всех уровнях модели. Вывод простой: такая дистилляция заметно улучшает качество, а общий энкодер на несколько триггеров помогает всем задачам. По словам авторов, в телефонах это уже работает, а на колонках пока сложнее из-за данных и краевых случаев.

Статьи отобрали ❣ Дмитрий Попов, Борис Шелудько
Speech Info