Интересные статьи на Speech Synthesis Workshop 1/2

Speech Synthesis Workshop — это воркшоп, который проходит при конференции Interspeech. В этом году разработчик службы синтеза речи Дарья Дятлова побывала на мероприятии и поделилась интересными статьями.

Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis

Авторы сравнивают схожесть оригинального голоса спикера и синтезированного моделью с помощью автоматической метрики. Выдеяют четыре тезиса-предпосылки.

1. Обычно для такого сравнения используют косинусную близость двух векторов, полученных из эмбедов модели для верификации спикеров (SV). Лучшая SV-модель — не всегда лучший экстрактор фичей для метрики схожести спикеров.

2. Характеристики голоса спикера можно разделить на две группы. Первые — спектральные — статичны и не меняются от записи. По ним легко отделить одного спикера от другого. Вторые — темп, длительность, громкость речи — динамичны и могут меняться от записи к записи. Эмбеддинги большинства моделей для SV не содержат информации о динамических характеристиках аудио.

3. Эмбединги моделей SV содержат информацию о чистоте сигнала и длительности аудио — это не прямая характеристика голоса спикера, а определенный баес датасета или TTS-модели. При конструировании метрики на основе этих эмбедингов стоит иметь это ввиду и применять определённые фильтры, которые помогают сгладить эффект.

4. Грубым способом оценки ритма может быть оценка темпа речи спикера. Однако такой способ — сравнение средних величин количества слогов на секунду аудио — признак с плохой разделительной способностью.

Что предложили

В статье предложили метрику U3D (Unit Duration Distribution Distance), которая оценивает одну из динамических характеристик речи спикера — её ритм. Метрика основана на сравнении распределений длительности групп фонем. Это не фонемы в буквальном смысле (они извлекаются в unsupervised-сетапе путём кластеризации эмбеддингов HuBERT), но дальше для простоты буду называть их фонемами.

Каждому элементу в последовательности из спич-юнитов присваивается индекс ближайшей к нему фонемы, после чего последовательность разделяется на сегменты идущих друг за другом фонем. Для каждой фонемы считается длительность в количестве спич-юнитов для каждой записи спикера. Затем тестовая и контрольная выборки распределений сравниваются через метрику Вассерштейна. В результате авторы показали, что метрика обладает высокой разделительной способностью и робастна к сравнению схожих спикеров.

Почему это круто

Большая часть статьи посвящена не самой метрике, а подводке к тому, зачем вообще она нужна и почему не всегда достаточно просто считать косинусную близость между эмбедами какой-то модели верификации спикеров и называть это speaker-similarity.
Пайплайн unsupervised-разметки легко адаптируется и хорошо ложится не только на задачу ритма и не только для подсчёта метрики.

Продолжение следует.

Дарья Дятлова Специально для Speech Info