Три статьи о новых подходах к обработке речи

Активация устройства без специального слова, новая архитектура для верификации спикера и необычный подход к оптимизации памяти — сегодня разберём несколько идей о том, как работать с речью.

Adaptive Knowledge Distillation for Device-Directed Speech Detection

Интонационный споттер от Apple — модель на 5 млн параметров, которая способна по интонации понимать, когда человек обращается к колонке. Авторы утверждают, что она уже используется на некоторых смартфонах. Сейчас в работе версия для колонок, но пока они столкнулись с проблемой в данных, которую не описывают подробно. Можно предположить, что проблема в более сложной акустике.

Модель обучена на нескольких сотнях тысяч размеченных сэмплов и дополнительных псевдолейблах. Авторы одновременно учат и инферят общую тушку для трёх споттеров: Hey Siri, Siri и интонационного. По их словам, это позволяет существенно увеличить качество модели на всех трёх задачах.

Ещё очень помогает трёхуровневая дистилляция с ASR. Ученик — конформер. Сверху три адаптера для споттеров, а учитель — ASR на 80 млн параметров, 12 conformer-слоёв и энкодер.

MASV: Speaker Verification With Global And Local Context Mamba

Технология верификации голоса для смарт-очков от Meta* — стриминговая модель MASV, новая архитектура, в которой блоки ECAPA-TDNN дополняются Mamba-модулем. Такая комбинация позволяет учитывать и локальные, и глобальные зависимости, но остаётся достаточно лёгкой для того, чтобы работать на устройствах с ограниченными ресурсами и с длинными аудиовходами.

Модель оценивали на внутренних данных: в студийных условиях записали около 5 млн высказываний от 30 тысяч человек. Датасет получился действительно большим, качество предложенной модели на нём выглядит высоким. Но без оценки на реальных пользовательских сценариях для смарт-очков результаты могут оказаться нерепрезентативными: студийная запись на один микрофон не отражает типичные режимы работы устройства.

Unfolding A Few Structures for The Many: Memory-Efficient Compression of Conformer and Speech Foundation Models

Необычный подход к оптимизации памяти, которую модель потребляет во время инференса. Вместо того чтобы хранить десятки отдельных слоёв, авторы обучают небольшой трансформер с несколькими блоками так, чтобы одни и те же слои можно было последовательно использовать несколько раз. На инференсе это даёт логически более глубокую сеть без добавления новых параметров.

Большую модель и её варианты с разной логической глубиной тренируют совместно в одном цикле. Чтобы выровнять их поведение друг относительно друга, авторы добавляют самодистилляцию: минимизируют KL-дивергенцию между самой глубокой и самой короткой конфигурациями.

Качество компактной модели заметно уступает исходной глубокой архитектуре. Но при логическом дублировании слоёв (многократном прохождении через одни и те же блоки), сжатая модель практически догоняет большую, при этом потребляя меньше памяти.

Борис Шелудько Специально для Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.