CV Time — пост #229

Лучшие статьи 2025 года: выбор авторов СV Time. Часть 2

Хороших статей в прошлом году оказалось слишком много, чтобы уместить их в один пост. Во второй части мы собрали не менее интересные работы, которые во многом определяют, как будет выглядеть генерация изображений и видео в 2026-м.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Работа, отобранная программным комитетом NeurIPS 2025, как одна из лучших. Авторы исследуют причины, по которым диффузионные модели генерируют новые изображения, а не воспроизводят в точности обучающую выборку. Для модельных экспериментов берут датасет лиц Celeba в низком разрешении и сгенерированный случайной двухслойной сетью. Оказывается, что существуют две временные отметки: t_gen и t_mem, между которыми модель умеет создавать качественные примеры и при этом не в точности копировать данные из обучения. Причём с увеличением количества данных интервал растёт. Вывод: диффузионные модели обладают регуляризацией, которая позволяет им избегать переобучения даже при избыточной параметризации. На практике обучающие выборки очень велики и отметка t_mem недостижима.

Mean Flows for One-step Generative Modeling

Группа исследователей из CMU и MIT этой весной представила работу, где предложила способ обучения генеративных моделей — такой, чтобы они могли делать качественные генерации за один или мало шагов. В отличие от общепринятого сейчас подхода Flow Matching, моделирующего мгновенную скорость в точке, Mean Flow учится воспроизводить усредненную по участку траектории скорость, что даёт более надёжную и точную оценку пути из шума в данные. Авторам удалось достичь лучшего качества одношаговой генерации на ImageNet на момент выхода публикации. Работа получила продолжение в статьях AlphaFlow и Improved Mean Flows.

Diffusion Transformers with Representation Autoencoders

Как известно, сейчас в генерации картинок и видео доминирует латентная диффузия: учат VAE, чтобы перевести картинки в более низкоразмерное пространство, и потом — диффузионную модель уже в этом пространстве. Авторы предложили вместо VAE взять сотовый картиночный энкодер (Dino, Siglip), доучить к нему декодер и обучать диффузию в пространстве фичей этого энкодера. Показывают, что диффузия, обученная в этом пространстве, сильно улучшает качество генерации. Вероятно, это будет одно из самых популярных направлений ресёрча на ближайшие полгода-год, как было с REPA.

Back to Basics: Let Denoising Generative Models Denoise

Исторически диффузионные модели чаще всего обучают предсказывать либо шум, который накладывается на картинку, либо разницу между шумом и чистой картинкой. В работе отмечают, что картинки в высоком разрешении, несмотря на большую размерность, лежат в сильно более низкоразмерном пространстве, и поэтому нейронке гораздо проще предсказывать чистую картинку, чем нечто с шумом, который захватывает всё пространство. Исходя из этого, авторы предлагают простейшую диффузионную модель — JiT (Just Image Transformer), которая работает напрямую в пиксель-спейсе (без VAE) и параметризована на предсказание чистой картинки. По архитектуре это обычный ViT с минимальными диффузионными спецификами. Показывают, что такая простая модель отлично работает на больших разрешениях, не требует дополнительных наворотов и внешних моделей. При этом по компьюту они даже эффективнее, чем латетные модели с VAE.

The Principles of Diffusion Models

Классный учебник по диффузионным моделям от их «создателя» Стефано Эрмона. В книге куча пояснений, интуиции и обсуждений, которые помогают получить полную картину о том, что мы сейчас знаем про диффузию. Покрыты почти все ключевые темы — от самой базы и до последних малошаговых моделей, а-ля MeanFlow. Будет крайне полезным для тех, кто хочет глубоко разобраться с диффузией.

Статьи отобрали ❣ Дмитрий Баранчук и Денис Кузнеделев
CV Time