ML Underhood — пост #276

Лучшие статьи 2025 года — выбор инженеров Яндекса

Мы уже обеими ногами в 2026-м, но неплохо и оглянуться назад. Тем более, что прошедший год подарил нам много отличных публикаций об ML. Каких именно? А об этом расскажут инженеры Яндекса.

CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

Очень интересный аудиокодек, для обучения которого используется всего один лосс. Он умеет восстанавливать двухканальное аудио в 44,1 кГц как из непрерывных эмбеддингов, так и из дискретных токенов. Кодек поддерживает авторегрессивное и параллельное декодирование.

VideoGLUE: Video General Understanding Evaluation of Foundation Models

Статья от DeepMind, которую представили на ICLR-2025. Авторы собрали большой бенчмарк для разносторонней оценки качества фундаментальных видеомоделей — VideoGLUE. Весь код доступен по ссылке.

В статье предлагают эффективный и наглядный формат сравнения и показывают, что текущие фундаментальные видеомодели сильно проигрывают специализированным подходам. Это говорит о том, что сейчас анализ видео — довольно перспективное и недоработанное направление с точки зрения исследований.

SAM Audio: Segment Anything in Audio

Вся линейка SAM кажется очень изобретательной, но о сегментации звука я даже и подумать не мог. А исследователи не только подумали, но и сделали очень красиво. Так же там довольно интересно собирают данные.

Об интересных статьях рассказали ❣ Николай Глазырин, Кирилл Никоров и Стас Лебедев

ML Underhood