ML Underhood — пост #285

Статьи Yandex Research на грядущей ICLR — 2/2

Статьи такие подробные и крутые, что просто рассказать о них всех в одном посте невозможно. Вот продолжение — ещё три работы.

SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration

Статья Дмитрия Ковалева посвящена унифицированному теоретическому анализу стохастического градиентного метода с адаптивным предобуславливанием в предположении матричной гладкости и шума, включающий популярные алгоритмы оптимизации, такие как AdaGrad-Norm, AdaGrad и Shampoo. Также автор разработал анализ ускоренного по Нестерову варианта метода, который позволяет получить теоретическое обоснование эффективности алгоритма Adam.

Revisiting Global Text Conditioning in Diffusion Transformers

Диффузионные трансформеры обычно используют текст двумя способами: через аттеншн и через модуляцию с pooled-эмбеддингом. В последние годы второй вариант часто убирают, оставляя только первый. Авторы показывают, что в стандартном виде pooled-эмбеддинг почти не влияет на качество — аттеншна обычно достаточно.

Однако если использовать pooled-эмбеддинг иначе, как guidance для управляемого смещения генерации к нужным свойствам, он даёт заметный прирост. Подход простой, не требует обучения, почти не добавляет времени и работает для разных моделей, улучшая результаты в text-to-image/video и image editing. В авторах статьи — Никита Стародубцев, Илья Дробышевский и Дмитрий Баранчук, а также исследователи из Adobe Research.

Sign-SGD is the Golden Gate between Multi-Node to SingleNode Learning: Significant Boost via Parameter-Free Optimization

Совместная работа Филиппа Змушко и Егора Петрова из Yandex Research с коллегами из BRAIn Lab. Претрейн больших моделей — крайне трудоёмкая задача, особенно в части подбора гиперпараметров. На практике шаг обучения часто выбирают эвристически через перебор, так как теоретически оптимальные значения требуют знания глобальных констант целевой функции (гладкости, липшицевости и тд), которые часто невозможно вычислить в реальных прикладных задач.

Авторы работы предложили новый parameter-free метод оптимизации, основанный на Sign-SGD. Решение (в частности алгоритм ALIAS) позволяет автоматически адаптировать шаг обучения в процессе оптимизации. Подход демонстрирует отличные практические результаты, сравнимые с тщательно настроенными SOTA методами, при этом избавляя от необходимости дорогостоящего перебора гиперпараметров.

#YaICLR26

ML Underhood