Speech Info — пост #27

Кто о чём, а мы — продолжаем делиться постерами с ICLR!

Несём ещё несколько любопытных работ, которые заметили и прокомментировали наши засланные казачки.

Restructuring Vector Quantization with the Rotation Trick

Чтобы лучше реконструировать входные данные в VQ-VAE, нужен всего лишь простой советский... Rotation trick! Суть идеи в том, что за счёт поворота центры кластеров сдвигаются в разные стороны, что заставляет лучше использовать векторы в кодбуке. Добавляются три строчки кода без замедления обучения — и получается качество реконструкции на уровне VQ-GAN. Есть код — и, учитывая простоту имплементации, решение можно будет легко попробовать на практике.

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Vision-Language Model Dialog Games for Self-Improvement

Две независимые друг от друга работы. В первой — сделали несколько процедурно генерируемых игр. Стэйты игр скармливали разным LLM в текстовом и визуальном формате и замеряли качество работы — лучшие результаты у Gemini. Во второй статье отметили, что Gemini «из коробки» неплохо справляется с процедурно генерируемыми играми разной семантики. (Есть предположение, что Google использует текстовое описание партий игр, как источник данных на претрейне).

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Авторы предложили бенчмарк для сравнения моделей распознавания речи по разным аспектам: устойчивости к шуму, far-field и акценту. Правда, в их формуле расчёта упоминается не самая надёжная метрика PESQ, а обсудить этот выбор на месте, к сожалению, было не с кем: авторы не приехали.

Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling

Собрали датасет с YouTube — выбрали записи с чистой игрой на пианино. На основе них с помощью пайплайна MAESTRO подготовили датасет, который можно использовать для генеративной музыки. Также обучили модель, которая делает MIDI-транскрипцию аудиофайлов. Бонус: на постере есть красивая визуализация со сравнением композиторов (в самой статье её нет).

Никита Рыжиков, Степан Комков и Влад Батаев ❣ специально для Speech Info

#YaICLR