DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization

Сегодня разберём статью о синтезе речи с помощью диффузионных моделей. Авторы из Adobe Research утверждают, что им удалось избавиться от главного недостатка такого подхода — медленного итеративного инференса — при помощи оригинального метода дистилляции.

Называется новый метод Direct Metric Optimization. Именно он вкупе с уже известной (но не очень популярной) методикой дистилляции DMD и бейзлайн-архитектурой Latent Speech Diffusion позволяет улучшить качество генераций.

Latent Speech Diffusion — диффузионный трансформер, оперирующий в пространстве непрерывных латентов (continious latents). Латенты авторы получают из чистой wave-формы при помощи энкодера дискретного аудиокодека. Потом добавляют к ним шум, U-net-подобной архитектурой итеративно расшумляют и декодируют с помощью стандартного диффузионного лосса.

Поскольку модель не авторегрессионная, размерность выхода необходимо знать заранее. Её выясняют, перемножая количество фонем на speaking rate речевого промпта.

Метод DMD работает так: расшумлённый результат ученика в заданный момент времени приближают к аналогичному результату учителя от одного зашумлённого латента. Для этого обучают специальную состязательную модель:

- при помощи дискриминатора отличать результаты ученика и учителя;
- сокращать за счёт ученика разницу между ним и учителем.

Предложенный метод генерации речи — end-to-end. Это значит, что в обучение для Direct Metric Optimization можно добавлять SV- и ASR-лоссы.

Аудиосэмплы доступны на GitHub.

Дмитрий Попов Специально для Speech Info