ML Underhood — пост #284

Статьи Yandex Research на грядущей ICLR — 1/2

Интересный факт: в фильме «Бразилия» не очень-то много о Бразилии. Зато о ней будет в нашем канале, когда мы возьмёмся освещать конференцию ICLR 2026. Она пройдёт уже в апреле в Рио-де-Жанейро. Туда отправляются исследователи Yandex Research — и не с пустыми руками, а с целой пачкой в шесть статей. Сперва расскажем о первых трёх.

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Авторы статьи — Денис Кузнеделев из Yandex Research и коллеги из ISTA, Red Hat AI и ETH Zürich. Они детально изучили представленные компанией NVIDIA форматы хранения весов и активаций (MXFP4, NVFP4) для квантования после обучения, чтобы понять, насколько заявленные преимущества соответствуют реальной производительности.
Анализ показал, что современные методы сталкиваются с трудностями при работе с FP4. Причины:

— привычные способы борьбы с выбросами (нетипичными значениями) не работают;
— при квантовании MXFP4 возникает ошибка.

В работе предложена улучшенная версия алгоритма квантования GPTQ. Она учитывает особенности FP4 и заметно повышает точность по сравнению с предыдущими методами. Кроме того, разработаны быстрые ядра для инференса.

Scale-wise Distillation of Diffusion Models

А это статья уже полностью от Yandex Research — Никиты Стародубцева, Дениса Кузнеделева, Артёма Бабенко и Дмитрия Баранчука. Авторы предлагают новый подход к помасштабной дистилляции диффузионных моделей — дообучать генерации изображений прогрессивно, от низкого разрешения к высокому. Это позволяет добиться более высокого качества, чем во время генерации с фиксированным разрешением при том же вычислительном бюджете.

Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization

Авторы статьи — Екатерина Бородич и Дмитрий Ковалев из Yandex Research — разработали ускоренный по Нестерову и не требующий подбора гиперпараметров градиентный метод, который автоматически адаптирует размер шага к локальной кривизне целевой функции с линейной (геометрической) скоростью. Эффективность алгоритма подтвердили, доказав, что он даёт оптимальную скорость сходимости для выпуклых задач оптимизации в условиях обобщенной гладкости.

#YaICLR26

ML Underhood