Трушный конф-виб ICLR 2025

- наша CV-команда в сборе;
- авторы статьи «Adam: A Method for Stochastic Optimization», получившей на ICLR 2025 Test-of-Time Award;
- фото избушки, в которой была написана одна из статей;
- и, конечно же, роботы, куда без них.

CV Time

#YaICLR
1 500 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
Building Safe and Robust AI Systems — первый Invited Talk

Хоть название и указывает на AI Safety, поначалу речь шла совсем о другом. Докладчик вспоминал, какими разнообразными и смелыми были идеи в исследованиях прошлых лет — и констатировал некоторый застой в академическом ресёрче. Подробнее об идеях из старых статей:

Input Convex Neural Networks: построение выпуклой нейросети, которую можно использовать как energy-based модель.

Optimization as a Layer: слой сети внутри себя решает задачу оптимизации.

Deep Equilibrium Models: по сути, RNN, но в итоге это направление заглохло, потому что на практике вычислительно сложные модели с малым количеством параметров уступают перепараметризованным.

Fighting Adversarial Samples: подходы так и не прижились, потому что все методы заметно ухудшают качество, при этом не гарантируют полное избавление от adversarial samples.

Просим прощения — фото слайдов немного не в фокусе. Но так даже вайбовее и в духе старых статей.

Послушал презентацию и записал тезисы Александр Шишеня
CV Time

#YaICLR
1 513 просмотров · 13 реакций Открыть в Telegram · Открыть пост на сайте
Подборка интересных постеров и статей с ICLR 2025. Часть 1

Наши корреспонденты уже принесли обзоры работ первого дня конференции, 24 апреля. Пишите в комментариях, какие идеи зацепили и о чём ещё хотите узнать.

Eagle: Exploring The Design Space for Multi-modal LLMs with Mixture of Encoders
Авторы из NVIDIA исследуют, как использование нескольких предобученных vision-энкодеров помогает моделям лучше справляться со сложными визуальными задачами, такими как OCR и анализ документов. Каждый энкодер обучали отдельно с зафриженной 7B моделью Vicuna. На заключительных этапах объединяли все экодеры и обучали финальную модель.

Heavy Tailed Diffusion Models
У распределения картинок тяжёлый хвост, у нормального — лёгкий. Есть теоретическое обоснование, что из-за липшицевости нейросети диффузионка не может генерировать из распределения с лёгким хвостом распределение с тяжёлым.

FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling
Генерируют картинки 2048 на основе модели, предобученной для 1024. На каждой стадии используется одна и та же модель, на ood-разрешениях подменяются аттеншн-мапы.

FORTE: Finding Outliers using Representation Typicality Estimation
Сделали фреймворк для автоматического нахождения аутлайеров в данных. Достаточно дать данные и несколько референсных точек, и можно будет получить оценку аутлайерности. Может быть полезно, например, для нахождения фото в карточках организации, которые к организации не имеют отношения.

Painting With Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning
Валидируют image captions, разбивая на крошечные утверждения и валидируя GPT (точность 85+), потом собирают два реворда на полноту и точность — пыщ-пыщ — профит.

Captured by Captions: On Memorization and its Mitigation in CLIP Models
Разработали метрику для выявления неправильно аннотированных текстов для обучения clip'a. Утверждают, что хороший буст качества даёт группировка мисанноипованных (неправильно аннотированных) картинок в один батч.

F³Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos
Находят события на сложных видео с блюром и быстрыми изменениями, например спортивных трансляциях. Архитектура: детектор ивента, классификатор ивента, блендим и в GRU. Может быть полезно, чтобы найти красивый кадр на превью пользовательских видео.

WeatherGFM: Learning A Weather Generalist Foundation Model via In-context Learning
Предлагают учить одну модельку под все погодные задачи. И при этом задавать визуальным промптом, что именно модели необходимо сделать: наукаст, сегментацию спутника и прочее. На первый взгляд, выглядит прикольно, но из погодных моделей сравниваются только с IFS и ClimaX.

High-Dynamic Radar Sequence Prediction for Weather Nowcasting Using Spatiotemporal Coherent Gaussian Representation
Идея статьи в том, чтобы представить 3D-информацию об осадках с помощью набора гауссиан, а потом их преобразовывать, чтобы получить наукастовый прогноз. Потом из новых гауссиан восстанавливается финальное поле осадков. Правда extreme-ивенты авторы не рассматривают.

Интересные постеры увидели Александр Шишеня, Пётр Вытовтов, Иван Балашов, Сергей Овчаренко, Денис Асонов
CV Time

#YaICLR
2 097 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking

Сегодня разбираем статью с ECCV’24, в которой предложили метод улучшения онлайн-трекинга BUSCA. Это надстройка над любыми современными трекерами в парадигме Tracking-by-Detection (TbD), помогающая не терять треки при пропуске объектов детектором.

В подходах TbD объекты сначала детектируют, затем соотносят с существующими треками. Проблема в том, что даже лучшие детекторы периодически теряют объекты, особенно при их низкой видимости. Из-за этого треки прерываются. BUSCA решает эту проблему, продолжая треки даже без детекций.

Архитектура BUSCA

В основе метода — Decision Transformer, работающий полностью в онлайн-режиме (без изменения прошлых результатов или доступа к будущим кадрам).

После стандартного сопоставления детекций с треками, несматченные треки обрабатываются BUSCA, которая анализирует:

Candidate proposal B: прогнозируемую позицию объекта с помощью фильтра Калмана;

Contextual proposals C: Q=4 ближайших объекта из успешно отслеживаемых треков на текущем кадре (для учёта окружения);

Learned tokens L: специальные токены [Halluc.] для обнаружения искажённых треков и [Miss.], когда объект покинул сцену или все предложения неподходящие.

Обработка токенов различается:

- Трековые наблюдения (несколько последних наблюдений из несматченного трека), Candidate и Contextual proposals проходят через ResNet-50 для извлечения 512-мерных визуальных признаков;
- Learned tokens и разделительный токен [SEP] инициализируются случайно и обучаются совместно с остальной архитектурой.

Все токены получают специальное пространственно-временное кодирование (STE), отражающее относительные время, размеры и расстояние до последнего наблюдения трека.

Затем Decision Transformer обрабатывает все токены вместе. Полученные представления предложений проходят через MLP-слой для генерации их вероятностей. Если выбирается candidate B — трек продолжается с обновлёнными координатами, в остальных случаях — ставится на паузу.

Эксперименты

BUSCA особенно эффективна для объектов с низкой видимостью и увеличивает среднюю длину треков. Метод обучался только на синтетических данных (MOTSynth) и работает со скоростью около 45 мс на кадр на NVIDIA RTX GPU.

BUSCA протестирована на пяти трекерах (ByteTrack, StrongSORT, GHOST, TransCenter, CenterTrack) и улучшила все ключевые метрики на MOT16, MOT17 и MOT20.

Разбор подготовила Мария Поклонская
CV Time
1 955 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Личный опыт инженеров Яндекса — Дмитрий Баранчук

Продолжаем рассказывать об ML-инженерах и исследователях в Яндексе. Сегодня о своих задачах, успехах и профессиональных ожиданиях рассказал руководитель команды исследователей по генеративному CV в Yandex Research.

Работы, о которых Дима говорит в карточках:

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis;
Invertible consistency distillation for text-guided image editing in around 7 steps.

Больше карточек — по хештэгу #YaMLpeople.

CV Time
1 883 просмотров · 29 реакций Открыть в Telegram · Открыть пост на сайте
PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models

Сегодня разбираем статью о редактировании изображений. Авторы показывают, как с помощью предобученной диффузионной модели SDXL можно детально изменять заданные сегменты на изображении.

Предложенный метод требует обучения токенов частей картинки на датасете, где для каждой картинки и целевого токена есть маска, соответствующая области, которую нужно изменить. В промпт подаются два токена, например: <head> (токен головы) и <BG> (бэкграунд для головы). Причём токен бэкграунда (<BG>) уникален для каждого целевого токена.

Дальше токены обучаются так, чтобы маски аттеншна в SDXL давали маски сегментации нужной части картинки. При этом сама диффузионная модель остается замороженной, обучаются только токены.

Авторы отдельно изучают, в каком диапазоне (от 0 до 50, где 0 — почти чистое изображение, а 50 — максимально зашумлённое) лучше брать усреднение. При обучении на таймстемпах [50, 40] маски получаются некачественные. В диапазоне [30, 20] результат лучше. При [10, 0] — чуть хуже, чем на среднем.

Когда эмбеддинги выучены, происходит редактирование. В случае с синтетическими изображениями используются три ветки:

1. Генерация исходного синтетического изображения. Например, по промпту "A closeup of a man" в качестве промпта подаётся, например, "A closeup of a man", где мы хотим заменить голову человека на голову робота. SDXL генерирует изображение и при этом сохраняется траектория — промежуточные латенты для каждого таймстемпа.

2. Средняя часть архитектуры работает как сегментатор: в SDXL подаются только два выученных эмбеддинга: части, которую нужно отредактировать и бэкграунда. В нашем примере это будет <head> и <BG>.

Для каждого таймстемпа собираются все маски аттеншна со всех слоёв (предварительно приводятся к одному размеру и агрегируются). Затем применяется алгоритм OTSU, который вычисляет локальный порог: если значение больше порога — это единица, если меньше — ноль, а в промежутке от 1/2K до 3/2K маска просто сохраняется.

3. Генерация отредактированного изображения: через SDXL прогоняются выученные эмбеддинги того, что нужно заменить (например, чтобы получить "A closeup of a man with robotic <head>").

На этапе редактирования фичемапы с исходного и редактирующего прогона блендятся с помощью предобработанных масок аттеншна из второй ветки. В конце прогона получается отредактированное изображение: нужная часть изменена, остальное — как в оригинале.

Решение применимо не только к синтетическим, но и к реальным изображениям: с помощью методов инверсии LEDIT++ и EF-DDPM получают латенты, а с помощью BLIP2 — промпт-описание исходной картинки.

В сравнениях с другими подходами в качестве метрики используется Alpha-CLIP: по маске определяется область редактирования, а с помощью CLIP считается, насколько результат соответствует заданному промпту. Как водится — по всем метрикам результаты превосходят конкурентов.


Разбор подготовил Александр Шишеня
CV Time
2 017 просмотров · 15 реакций Открыть в Telegram · Открыть пост на сайте
Тематическая подборка статей: генерация

Подобрали свежие статьи о генеративных моделях. В этот раз — обсуждают, как улучшить токенизацию для диффузионных моделей, дистиллировать CFG и оптимизировать обучение генератора. А ещё есть работа о том, как интерпретировать внимание в Diffusion Transformers и использовать его для сегментации.

Автоэнкодеры

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
Авторы говорят, что увеличение числа каналов в автоэнкодере улучшает реконструкцию (что логично), но делает задачу для генератора более сложной, приводя к ухудшению генераций. Предлагают дополнительным лоссом предсказывать признаки от бэкбона (dino/mae/etc) — это делает фичи автоэнкодера более «простыми» для генератора и улучшает его сходимость.

Masked Autoencoders Are Effective Tokenizers for Diffusion Models
Развитие предыдущей работы: связали улучшение качества представления автоэнкодера с уменьшением числа мод в mixture of gaussian модели, и переделали архитектуру автоэнкодера в MAE-трансформер.

Эдитинг

REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
В статье предлагают парсить Reddit для сбора датасета по эдитингу картинок: брать треды, где пользователи просят отфотошопить их картинки. Отбирают посты до 2021 года, чтобы в них не было применения AI.

Ускорение

DICE: Distilling Classifier-Free Guidance into Text Embeddings
Авторы говорят, что можно дистиллировать Classifier-Free Guidance (CFG), включая negative prompt, в небольшую нейронку поверх текстовых эмбеддов.

Visual Generation Without Guidance
В статье предлагают алгоритм обучения генератора, для которого потом не нужно делать CFG. Заявляют, что это работает лучше, чем дистилляция.

RL

Calibrated Multi-Preference Optimization for Aligning Diffusion Models
Исследователи из Google предлагают метод, который, по их утверждению, лучше, чем Direct Preference Optimization (DPO), благодаря аккуратному выбору пар для обучения и более хитрой функции потерь.

Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
Предлагают делать RL непосредственно в латентном пространстве — для этого нужна reward-модель, способная в нём работать. Говорят, что идеально подходит предобученная диффузионная модель, которую можно дообучить на предсказание reward’а. Утверждают, что это упрощает пайплайн обучения и улучшает финальное качество.

Другое

ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
Авторы говорят, что можно использовать предобученную диффузионную модель для получения SOTA сегментационных масок в zero-shot-режиме. Для этого делают надстройку над аттеншн-слоями в DiT'е.

Подборку подготовил Артём Конев
CV Time
5 221 просмотров · 22 реакций Открыть в Telegram · Открыть пост на сайте
FoundationStereo: Zero-Shot Stereo Matching

Сегодня разбираем статью от NVIDIA. Исследователи решают задачу определения глубины по двум изображениям, снятым с близко расположенных камер, то есть со стереопары. Камеры смотрят в одном направлении, поэтому каждая 3D-точка попадает приблизительно на одну строку в обеих картинках, но в разных местах. Это позволяет искать соответствия между пикселями одной и той же строки двух изображений, и, используя эти соответствия, восстанавливать глубину сцены.

Определив соответствия между точками на двух изображениях, можно вычислить диспаритет — сдвиг координат пикселя на одной картинке относительно другой. Зная диспаритет, фокусное расстояние и расстояние между оптическими центрами камер, можно пересчитать его в глубину.

Исследователи из NVIDIA говорят, что сейчас нет модели стерео-матчинга, которая бы показывала хорошую zero-shot-генерализацию. Текущие лучшие решения предлагается дообучать на целевой домен.

В других задачах проблему генерализации уже удалось решить за счёт больших данных. Например, Segment Anything обучили на огромном датасете, и модель успешно работает без дообучения. NVIDIA попробовала применить этот же подход к стерео-матчингу. Они собрали фотореалистичный синтетический датасет FSD (картинка 2) из миллиона стереопар, превосходя по объёму и многообразию другие открытые датасеты. Датасет выложен в открытый доступ.

Детали архитектуры

Из левого и правого изображений (картинка 1) извлекаются фичи из Depth Anything, конкатенируются с фичами из отдельной обучаемой свёрточной сети. Из этой пары создаётся feature cost volume — объём фичей, где каждая описывает похожесть пикселя на левой картинке на пиксели в той же строке на правой картинке и корреляционный cost volume, где похожесть пикселей описывается единственным числом.

Такие cost volume’ы уже можно использовать для поиска диспаритета, но в них недостаёт глобального контекста картинок. Чтобы его добавить, применяется операция AHCF (Attentive Hybrid Cost Filtering), особенность которой — использование информации из всего cost volume для получения значений в финальном пикселе выходного тензора; это делается с помощью глобального внимания в transformer-ветви AHCF и с помощью аналога separable-свёрток в свёрточной ветви AHCF. Изменение по ablation даёт 10% улучшения по метрике BP-2: доля пикселей, где ошибка диспаритета больше 2 пикселей (0.221 → 0.197).

Дальше процесс похож на описанный в RAFT-Stereo, но с некоторыми отличиями. В RAFT-Stereo сеть получает на вход hidden state и срез из correlation cost volume. В Foundation Stereo получает срезы из correlation cost volume и feature cost volume.

Таким образом, вход в GRU включает:

— срез cost volume в соответствии с текущей оценкой диспаритета;
— фичи левой картинки из отдельно обучаемой контекстной сети (так делалось и в RAFT-Stereo);
— саму текущую оценку диспаритета.
GRU обновляет внутреннее состояние и предсказывает поправку, итеративно уточняя диспаритет.

Детали обучения

Модель обучается на смеси FSD-датасета и других датасетов с smoothed L1-лоссом и экспоненциально затухающими L1-добавками для оценок на диспаритет с разных итераций GRU-юнита.

Данные из FSD дополнительно фильтруют по BP-2, используя эту же модель, обученную на полном FSD-датасете, а затем обучают ёще раз.

Интересное из ablation study:

— использование Depth Anything фичей как входов в feature cost volume не работает совсем (по метрике BP-2);
— в separable-свертках для фильтрации feature cost volume используется ядро размера 17(!) по размерности диспаритета (но 1 по spatial-размерности);
— добавление FSD-датасета в обучение даёт BP-2 на датасете Middlebury в два раза лучше, чем без него.

Разбор подготовил Леонид Штанько

CV Time
7 029 просмотров · 27 реакций Открыть в Telegram · Открыть пост на сайте
Яндекс выпустил диффузионную модель YandexART 2.5

Сегодня мы зарелизили нашу лучшую модель text-to-image генерации YandexART 2.5. Дополнительно приятно, что некоторые её создатели были авторами разборов в этом канале.

Как удалось добиться нужного качества:

— Увеличили размер латентного пространства. Теперь автокодировщик VAE работает с 16 каналами (вместо четырёх, как раньше).

— Применили технологию «супирования». Когда независимо файнтюним несколько моделей и усредняем их веса.

— Улучшили датасет для обучения, который включает пары «текст-картинка». Теперь для каждой картинки разными моделями генерируется несколько описаний, а также берётся текст, описывающий это изображение в интернете. Метамодель выбирает лучший из предложенных текстов — именно он идёт в обучение.

— Увеличили и сам датасет. Теперь его размер приблизился к 1 млрд пар картинок и описаний к ним.

— Ускорили модель с помощью multistep consistency distillation. Благодаря этому подходу генерация стала в 9 раз быстрее.

Всё это и многое другое позволило переиграть Midjourney 6.1 и некоторые SOTA-модели. В таблице показана доля побед YandexART 2.5 Pro, а зелёным отмечены победы нашей модели в сравнении с другими.

Модель уже в Шедевруме — пробуйте первыми, делитесь впечатлениями и результатами.

CV Time
2 267 просмотров · 37 реакций Открыть в Telegram · Открыть пост на сайте
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Сегодня разбираем статью о VideoLLaMA 3. По сути — это «yet another VLM» со стандартной архитектурой, описанной на многим знакомой схеме, но есть интересные детали.

Авторы называют свою модель вижнцентричной (vision-centric) — она умеет работать и с видео, и с картинками. В решении используется визуальный энкодер, который обрабатывает изображения покадрово. Картинки передаются в динамическом разрешении и проходят через визуальный трансформер в исходном размере.

С видео можно поступить так же, но это приводит к взрывному росту числа токенов, который выходит за пределы контекста опенсорсных моделей. Чтобы решить эту проблему, авторы вводят компонент под названием Video Compressor.

С его помощью видео разбивают на патчи и оценивают разницу между кадрами. В каждом новом кадре считается только разница с патчами предыдущего кадра. Все кадры кодируются, и каждое изображение превращается в несколько визуальных токенов. Затем видеокомпрессор удаляет те, что содержат дублирующуюся информацию. Патч считается дублирующим, если разница между соответствующими патчами двух соседних кадров меньше заданного значения.

Такой подход авторы называют Differential Frame Pruner. Он позволяет обрабатывать видео, сохраняя единый визуальный энкодер для картинок и видео.

Обучение проходит в четыре стадии:

1. Vision Encoder Adaptation
— обучают только визуальный энкодер и проекционный слой. Используют SigLIP, который работает с фиксированными разрешениями, и адаптируют его под произвольные. Процесс идёт в VLM-сетапе: визуально-языковая модель заморожена, а SigLIP и проекция — разморожены. Обучение проводят на кэпшенах, документах и Scene Text (BLIP3-OCR-Recap), охватывая разные домены.

2. Vision-Language Alignment — аналог претрейна: вся сеть разморожена, обучают на максимальном объёме данных.

3. Multi-task Fine-tuning — используют более качественные данные. Хотя их объём почти совпадает с претрейном, здесь больше детализированных срезов.

4. Video-centric Fine-tuning — основной упор на видео и текст, изображений в обучающей выборке меньше.

Интересен первый этап, где визуальный энкодер адаптируют к произвольному разрешению в VLM-сетапе. Дальше обучение идёт по стандартному сценарию.

Детали реализации

Авторы используют опенсорсные датасеты для кэпшенов (COYO 700M, VL3-Syn7M) и предлагают свой способ перекэпшенивания картинок.

Сначала делают базовую фильтрацию по Aspect Ratio и Aesthetic Score. Затем применяют подход Text-Image Similarity Calculation: генерируют кэпшен через BLIP2, вычисляют CLIP-скор между ним и картинкой. Если скор низкий, картинку считают сложной, плохой или нерелевантной — и отбрасывают. Выбор BLIP2 неочевиден, поскольку он генерирует слабые кэпшены, но для фильтрации сложных изображений метод выглядит рабочим.

Дальше кластеризуют фичи через CLIP и выбирают изображения из каждого кластера в равных пропорциях. Затем перекэпшенивают их с помощью InternVL2-26B и получают набор синтетических кэпшенов, которые считают качественными.

Отдельно интересен способ подачи видео — Timestep Token. Видео позиционно кодируют текстом, добавляя текстовые токены в соответствии с длительностью фрейма. Влияет ли это на качество, неясно, ablation-экспериментов нет. Другие работы, например Qwen, используют отдельные позиционные эмбеддинги с темпоральным измерением, а здесь просто прописывают время текстом.

Тесты проводились на мультимодальных бенчмарках и показали, что модель стабильно опережает Qwen2.5-VL, но подробного сравнения нет. В целом главная проблема статьи — отсутствие полноценных ablation-экспериментов.

Также интересно, что несмотря на название VideoLLaMA3, Llama здесь нет: в качестве языковой модели используют Qwen2.5-2B, в качестве визуальной — SigLIP.

Обзор подготовил Андрей Чернов

CV Time
2 055 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Личный опыт инженеров Яндекса — Антон Клочков

Продолжаем рассказывать об ML`щиках в Яндексе, их успехах и трендах, на которые они делают ставку. Сегодня наш герой — руководитель подгруппы распознавания текста в VLM Антон Клочков.

Больше карточек — по хештэгу #YaMLpeople.

CV Time
3 980 просмотров · 20 реакций Открыть в Telegram · Открыть пост на сайте
Тематическая подборка статей за февраль: картиночные модели

Спешим со свежей подборкой интересных статей. В этот раз — о моделях для работы с изображениями. CLIP остаётся в центре внимания исследователей, но вопросы к его фичам не исчезают. Также делимся несколькими работами по архитектуре нейросетей и оптимизации для мобильных устройств.

Image-to-Text

Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion
Статья подтверждает наше наблюдение, что фичи CLIP плохо подходят для image-to-image retrieval. Авторы углубляются в проблему, используя текстовую и картиночную инверсию, но практических решений не предлагают.

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally
Исследователи показывают, что фичи CLIP ведут себя как «мешок слов» только при взаимодействии между доменами картинок и текстов, а внутри одного домена сохраняют структуру. Например, «синий куб и красный шар» ≠ «красный шар и синий куб» — то же верно и для изображений. Это значит, что проблема может быть не в самих эмбеддингах, а в их междоменном взаимодействии. Авторы предлагают обучить линейный слой с negative-текстами поверх текстовой модели — на синтетическом датасете этот подход показывает неплохие результаты.

Disentangling CLIP Features for Enhanced Localized Understanding
В статье предлагают дополнительные лоссы, которые помогают «распутать» фичи CLIP. Авторы дообучают головы поверх текстовой и визуальной частей. Метод выглядит специфично, но к некоторым идеям стоит присмотреться.

CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe with Sparse Upcycling
Модель инициализируется из обычного CLIP, но в каждом втором MLP-блоке заменяют слои на смесь из восьми экспертов, из которых активируются два. Для обучения предлагают использовать комбинацию из шести лоссов.

Архитектура

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
В статье утверждают, что уменьшение размера патча в трансформерах с 16×16 до 1×1 улучшает качество модели. При этом для моделей, у которых уменьшен размер входного патча, не нужна сложная архитектура головы при адаптации под dense-задачи (например, сегментация и оценка глубины).

iFormer: Integrating ConvNet and Transformer for Mobile Application
В статье описана архитектура со свёртками и аттеншном, заточенная под инференс на iPhone. Основой служит ConvNeXt, который дорабатывают, чтобы сделать сеть более лёгкой. Помимо этого, предлагают использовать слои аттешна с одной головой для модуляции карт признаков — было бы интересно сравнить это с более простым и популярным блоком «squeeze and excitation».

Подборку подготовил Артём Конев
CV Time
2 509 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Эволюция диффузионок: главные вехи последних лет

Вчера на Хабре вышла большая и захватывающая статья исследователя Yandex Research Сергея Кастрюлина об истории развития диффузионных моделей. Среди прочего в ней рассказано о борьбе каскадной и латентной парадигм, дилемме между свёрточными моделями и трансформерами, дистилляции как решении проблемы медленной генерации и многом другом. В этом посте мы уместили краткий обзор части работ, которые упоминаются в статье, — очень советуем прочитать полную версию.

Simple diffusion: End-to-end diffusion for high resolution images
Один из трендов начала 2023 года — противостояние каскадной и латентной диффузии. Обе парадигмы ставят задачей уменьшить размерность пространства, в котором происходит генерация объектов, поскольку считается, что генерация в высоком разрешении — слишком сложная задача. В своей работе авторы из Google Brain показывают, что диффузионную модель можно обучить сразу генерировать изображения в высоком разрешении без усложнений в виде каскадных схем и автокодировщиков. В статье на Хабре рассказано, с помощью каких приёмов это было достигнуто.

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
Ещё одна громкая публикация, на этот раз от Stability.ai. Описанная в ней модель SDXL — первая по-настоящему большая опенсорс-модель с 2,8 миллиарда параметров (что немало и сегодня). Механизм, при котором конкатятся текстовые эмбеддинги из нескольких энкодеров, популярен до сих пор. Кроме этого, SDXL остаётся сильным бейзлайном по качеству генерации.

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
EMU — первая text-to-image модель от Meta*. Авторы показывают, что для SFT важнее качество данных, а не их объём. В полной статье можно подробнее прочитать главное о разделении обучения на pretraining и SFT. А ещё именно в EMU впервые предложили использовать VAE, в которых было больше четырёх каналов — сейчас таким уже никого не удивишь.

Improving Image Captioning with Better Use of Captions
Релиз обновлённой DALL-E — событие, которое вышло далеко за рамки ML. Модель выгодно отличалась на фоне современников. Во многом OpenAI удалось достигнуть этого благодаря новому подходу к обучению: 95% пар «картинка — текст» заменили на правильную синтетику.

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
Трансформерную архитектуру DiT для диффузионных моделей предложили ещё в конце 2022 года. В PixArt-α её доработали, добавив возможность использовать тексты в качестве условия для генерации. Совместив это с изменениями в данных и обучении, авторы добились высоких результатов при минимальных вычислительных затратах.

Adversarial Diffusion Distillation
Статья, которую первоначально захейтили и отклонили рецензенты. Именно в ней Stability.ai предложила первый метод дистилляции для решения проблемы долгого инференса. Его использовали в модели SDXL‑Turbo и смогли генерировать изображения, сопоставимые по качеству с генерациями исходной модели, но на порядок быстрее. ADD до сих пор остаётся популярным методом дистилляции.

SANA, Kolors, FLUX и другие современные модели
Вторая часть статьи посвящена обзору более свежих разработок. Летом 2024-го вышел масштабный техрепорт Kolors — таким китайские исследователи балуют нечасто. В нём они, среди прочего, говорят об использовании GLM, мультиязычной генеративной модели, в качестве текстового энкодера. В ноябре того же года Nvidia представила модель SANA с возможностью без дополнительных Super‑Resolution‑моделей генерировать изображения в 4К. А в последнее время фокус сместился в сторону закрытых моделей, таких как Ideogram, Recraft, MidJourney и FLUX, о которых известно не так много.

Кроме более полного экскурса в эволюцию диффузионок за последние два года, в статье упоминают CV Week, бесплатный интенсив ШАДа о диффузионных моделях. О нём у нас был пост с комментариями спикеров — будет полезно, если захочется пробежаться по ключевым тезисам.

CV Time

___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
2 407 просмотров · 31 реакций Открыть в Telegram · Открыть пост на сайте
InsightEdit: Towards Better Instruction Following for Image Editing

Авторы сегодняшней статьи рассказывают о том, как построили модель InsightEdit для трёх задач редактирования изображений — добавления, удаления и замены объекта. Для этого:

— собрали автоматический пайплайн генерации данных для обучения задаче редактирования изображений по промпту;
— сгенерировали с помощью этого пайплайна датасет AdvancedEdit;
— на собранном датасете обучили модель InsightEdit.

Сначала авторы сгенерировали caption для исходного набора картинок: простые описания (вида «голубая футболка») и сложные (вида «футболка на мужчине, похожая на хлопковую, содержит голубые элементы»). Потом использовали LLM, чтобы создать список объектов, сгенерировали каждому из них маску с помощью GroundedSAM и отфильтровали маски с низким скором уверенности. И, наконец, составили простые инструкции, как и что заменить, и с помощью инпейнтинга сгенерировали отредактированное изображение. А чтобы модель не переобучилась, добавили в датасет перефразированные LLM формулировки.

Такой автоматизированный пайплайн использовали для создания датасета AdvancedEdit. В качестве исходных данных взяли датасет Pixels, который содержит более 1 миллиона фотографий высокого разрешения.

Модель InsideEdit состоит из трёх модулей: понимания, объединения и генерации. Модуль понимания использует MLLM, чтобы понять по промпту, что нужно редактировать. Модуль объединения улучшает взаимодействие промпта и исходного изображения. А модуль генерации — создаёт целевое изображение: редактирует исходное, обуславливаясь векторами признаков из предыдущих модулей.

Для оценки качества обученной модели авторы сравнивают CLIPScore объекта редактирования с эмбеддингом целевого объекта. А чтобы убедиться, что модель не изменила остальные объекты, применяют PSNR, SSIM и LPIPS по фону изображения. Для более точной оценки эффектов редактирования и соответствия человеческим предпочтениям — используют VIEScore.

Обзор подготовил Александр Шишеня
CV Time
1 979 просмотров · 17 реакций Открыть в Telegram · Открыть пост на сайте
Тематическая подборка статей: генерация

Спешим поделиться очередной подборкой публикаций — на этот раз о генерации.

Обучение

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis
Авторы обучили 1B-трансформер для генерации изображений, используя VQ-VAE и masked image modelling. По словам инженеров, модель достигла уровня SD XL, что они считают успехом.

Improving Long-Text Alignment for Text-to-Image Diffusion Models
Исследователи пробуют модифицировать Stable Diffusion для работы с длинными текстами. Для этого их нарезают на сегменты, которые по отдельности кодируют через CLIP. Также проанализировали CLIP-реворд, разделив его на text-relevant и text-irrelevant части (последние стремятся сделать картинки более комплексными). Дополнительно в статье показано, что T5-энкодер можно на файнтюне добавлять к CLIP-предобученной модели.

Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
В статье попарно сравнивают четыре подхода к генерации изображений трансформерами: авторегрессивная генерация vs генерация токенов на рандомных позициях, а также предсказание continuous-токенов vs предсказание дискретных токенов из словаря.

Побеждает предсказание continuous-токенов на случайных позициях, но авторам не удалось выровнять качество continuous и дискретных автоэнкодеров — эта часть вызывает вопросы. Авторы отдельно замечают, что лосс на валидации хорошо коррелирует с метриками. Об этом упоминалось и в статье о Movie Gen (пункт 3.6.1, абзац «Correlation between validation loss and human evaluation»).

Бенчмарки

KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities
В работе создали корзину концептов из «Википедии» с изображениями-референсами и замерили на ней Imagen, Flux, Stable Diffusion и прочие модели. Выяснилось, что те из них, что на вход принимают картинку-референс (InstructImagen, DreamBooth), лучше воспроизводят концепты, но часто ценой худшего следования промпту. Также авторы сравнили разметку людьми с автооценкой через CLIP/DINO, и ранжирование моделей поменялось (корреляция 0,3–0,5, что указывает на возможность подобрать лучшие модели).

Видео

Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content
Исследователи собрали датасет для обучения видеодиффузионной модели: описали процесс video splitting, схему кэпшнинга и фильтрации. В работе по набору классификаторов учатся предсказывать, насколько видео подходит для добавления в обучающее множество, а также кондишнят генерацию на классификаторы по видео.

Movie Gen: A Cast of Media Foundation Models
Большая статья, в которой Meta адаптирует архитектуру Llama3 с 30B параметров для генерации видео. Интересные моменты:

— используют три текстовых энкодера: UL2, ByT5 и CLIP, которые во время обучения считаются на лету;
— в ByT5 подают только текст, который нужно отрисовать (предлагают помещать его в кавычки в промпте);
— тюнят Llama3 для переформулировки промптов, приближая их к трейну;
— добавляют дополнительный лосс для борьбы с точками-артефактами при обучении VAE;
— обучение начинается с изображений разрешением 256px;
— получают финальную модель путём усреднения весов моделей, дообученных на разных датасетах и гиперпараметрах.

Другое

On the Effectiveness of Dataset Alignment for Fake Image Detection
Авторы описывают хитрый способ обучить классификатор синтетических картинок. Для этого реальные изображения (неважно какие) кодируются и декодируются через VAE — и дальше к ним относятся, как к синтетическим.

Таким образом получается датасет пар картинок, которые отличаются только артефактами VAE — на нём можно обучить детектор синтетических картинок. Но есть нюансы: пайплайн может быть чувствителен к постобработке картинок, и может плохо переноситься на модели с сильно отличающимися VAE.

Обзор подготовил Артём Конев

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
2 356 просмотров · 18 реакций Открыть в Telegram · Открыть пост на сайте
Недавно инженеры из Яндекса вместе со Школой анализа данных провели открытый онлайн-интенсив по компьютерному зрению и рассказали о генеративных диффузионных моделях.

Получилась крепкая база для ML`щика — с понятными видеолекциями и практическими разборами.

Делимся этими материалами с вами — на лендинге они удобно сгруппированы по темам. А в карточках наши спикеры рассказывают, чем вам может быть полезна каждая из освещённых тем.

Приятного чтения и увлекательного просмотра!
7 320 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте
UniReal: универсальная модель для генерации и редактирования изображений

Разбираем статью UniReal от исследователей из университета Гонконга. Редактирование изображений — обширная область, в которой есть разнообразные подходы, в частности, известные ControlNet и InstructPix2Pix. Однако в случае с UniReal авторы хотели создать универсальную модель, способную из коробки решать разные типы задач.

На тизерной странице есть примеры её работы. Модель может изменить фон исходной картинки, убрать или заменить изображение, добавить новые объекты, поменять стиль, создать композицию из объектов.

Архитектура

Модель построена на диффузионном трансформере с Full Attention. Архитектура включает следующие компоненты:

— энкодер T5 для обработки текстовых токенов;
— VAE-энкодеры для изображений;
— специальные токены для работы с несколькими изображениями (например, IMG1 для входного изображения и RES1 для результирующего).

Картинки могут выполнять разную роль: быть фоновым изображением (canvas image), давать сигнал, вроде указания границ или глубины (control image), или просто участвовать в качестве объекта на сцене (asset image). Для каждой категории изображений есть обучаемые токены (learnable category embeddings). Они добавляются вместе с картинкой, как промпт.

Авторы используют обучаемые контекстные промпты с несколькими сценариями: реалистичными, синтетическими, статическими, динамическими, а также с референсным объектом.

Данные

Качественных датасетов для редактирования изображений довольно много, например: InstructPix2Pix, UltraEdit, VTON-HD. Но все же их оказалось недостаточно, поэтому исследователи добавили этап обучения на видеоданных. Использовали два типа предобучения:

— С помощью видеоклипов, из которых случайным образом выбирались два кадра, а также добавлялись описания происходящего в клипе. Для генерации синтетических описаний применяли модель GPT-4 mini.

— Генерация описаний изображений с привязкой к границам объектов (bounding boxes) с помощью VLM Kosmos-2. Эти границы комбинировались с Segment Anything Model (SAM) для получения масок. Так создавалась синтетическая разметка видео для задач вставки объектов и заполнения отсутствующих частей изображения (inpainting).

Модель предобучалась на этой смеси: сначала на видеоданных, затем на публичных датасетах. Исследователи делают акцент на том, что для финального результата были важны все компоненты.

Результаты

Сравнение на бенчмарках EMU Edit и MagicBrush в задачах редактирования изображений показало, что UniReal успешно справляется со сложными задачами, такими как добавление и удаление объектов, в то время как базовые модели допускают в них ошибки.

Для генерации референсных объектов на фоне модель сравнивается с Textual Inversion, DreamBooth, BLIP-Diffusion и другими. Не во всех случаях она превосходит конкурентов по метрикам, но показывает хорошие результаты в SBS-замерах.

Сейчас модель неплохо работает с двумя-тремя изображениями, но для генерации на десяти и более изображениях требуется больше данных и доработка архитектуры.

Обзор подготовил Денис Кузнеделев

CV Time
2 483 просмотров · 14 реакций Открыть в Telegram · Открыть пост на сайте
Личные итоги года инженеров Яндекса — Роман Исаченко

Продолжаем серию постов от ML'щиков из Яндекса, в которых они подводят профессиональные итоги прошедшего года и строят планы на будущий.

Сегодня на очереди — руководитель подгруппы дискриминативного анализа изображений Роман Исаченко. Он рассказал о личных достижениях и поделился взглядом на тренды в ML.

Больше карточек от инженеров — по хештэгу #YaMLpeople.
2 046 просмотров · 42 реакций Открыть в Telegram · Открыть пост на сайте
Опыт модели Aquila-VL-2B: почему не всегда стоит доверять бенчмаркам

Сегодня разберём работу Infinity-MM и описанную в ней модель Aquila-VL-2B. Эта маленькая VLM с двумя миллиардами параметров интересна тем, что смогла обойти в своём классе Qwen и InternVL, которые редко уступают первые позиции лидербордов. Расскажем, как в топе MMBench оказалась неизвестная модель и почему иногда бенчмарки могут искажать реальную ситуацию.

Работа представляет собой репорт о проведённом эксперименте. Материал не содержит наукоёмких изменений в пайплайне обучения или архитектуре модели. Авторы сосредоточены на теме данных и отвечают на вопрос: как при ограниченных ресурсах стать SOTA VLM, пусть даже не в самом популярном классе маленьких моделек.

Один из ключевых тезисов: при обучении VLM имеет смысл масштабировать объём SFT-данных. С этой целью авторы собрали всё доступное из опенсорса и получили датасет из нескольких десятков миллионов инстрактов, а также сгенерировали в дополнение небольшую часть синтетики. Все данные фильтровались, проходили дедупликацию и проверку на разнообразие. Итоговый мультимодальный датасет — это и есть Infinity-MM из названия статьи.

Из-за ограничения в вычислительных ресурсах исследователи использовали для генерации и чистки датасета опенсорсные модели, в частности активно прибегали к помощи Qwen.

Пайплайн для генерации синтетических данных выглядит следующим образом:

— Собирается база изображений, их размечают с помощью опенсорс-модели, которая тегирует объекты на картинке.
На основе тегов формируется дерево типов задач, для которых целесообразно создавать инстракты.

— Опенсорсными моделями (преимущественно MiniCPM и Qwen) генерируют инстракт по картинке, тегу и тематике. Происходит автофильтрация через эту же модель (ей дают сгенерированный инстракт и спрашивают, насколько он валиден).

— Затем получают ответ по синтетическому инстракту — та же модель снова отвечает на вопрос, который сама придумала.

— Следующий шаг — фильтрации ответа. Тут интересное решение: опенсорсная модель считает лосс по полученной паре и, если он высокий, пример исключается. Так исследователи автоматически отфильтровали 5% самых «шумных» данных.

Этих несложных манипуляций хватило, чтобы обогнать модели, которыми авторы генерировали и фильтровали свои данные. Скорее всего, так произошло, потому что синтетику целенаправленно собирали под конкретный бенчмарк (MMBench). И в таком случае модель может непредсказуемо вести себя на других задачах.

Можно сделать вывод, что бенчмарки лучше использовать исключительно как «градусник», чтобы следить за изменениями в области. А вот для оценки эффективности моделей надёжнее ориентироваться на SBS-замеры (Side-by-Side), которые позволяют проводить прямое сравнение в реальных условиях.

А как вы оцениваете опыт Aquila-VL-2B и доверяете ли ещё бенчмаркам?


Обзор подготовил Алексей Григорьев
CV Time
2 138 просмотров · 24 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 3

Сегодня делимся подборкой от Александра Шишени, ведущего разработчика службы компьютерного зрения в Яндексе. Он выбрал интересные направления и статьи в них, чтобы нам не пришлось рыться в тоннах публикаций.

Авторегрессионная генерация изображений

SWITTI: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Команда исследователей из Yandex Research обучила и опубликовала в открытом доступе собственную авторегрессионную модель для генерации изображений по тексту. За основу взяли архитектуру STAR и провели ряд улучшений:
— добавили дополнительные нормализационные слои для стабилизации обучения;
— убрали авторегрессию на прошлые разрешения — тем самым ускорили генерацию и уменьшили потребление памяти;
— отключили технику classifier-free-guidance (CFG) на высоких разрешениях — получили значительное ускорение без ухудшения качества генерации.
В результате Switti имеет паритет по качеству с диффузионками, но при этом генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.
Можно также прочитать подробный разбор решения в трёх частях: первая, вторая, третья.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
Один из недостатков авторегрессионных моделей — низкая скорость генерации изображений. Чтобы решить эту и другие проблемы, ByteDance предложили альтернативную авторегрессионную парадигму, которая включает:
— многомасштабный VQ-VAE для одновременного кодирования и декодирования изображений на нескольких уровнях разрешения;
— обучение трансформера для последовательной генерации токенов изображения с постепенным увеличением масштаба.
В результате удалось добиться качества, сопоставимого с современными диффузионками, обученными на ImageNet, и при этом превзойти их по скорости.

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
Авторы Infinity∞ продолжают развивать идеи масштабируемой авторегрессионной генерации. Их решение использует битовую токенизацию с бесконечным словарём и механизмом самокоррекции. Результат — заметно повышается качество генерируемых изображений.

Диффузионные модели

Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling
На стадии инференса диффузионных моделей приходится делать много итераций, так как траектории сэмплирования, определяемые моделью, существенно отклоняются от прямых.

Это во многом связано с тем, что процесс зашумления в стандартной диффузии задаётся фиксированной формулой. Авторы предлагают обобщить диффузионные модели с подходом flow-matching, добавив обучаемое зашумление. Это позволяет адаптировать процесс зашумления так, чтобы траектории минимально отклонялись от прямых. Интересно, что такая постановка приводит к решению задачи оптимального транспорта.

А ещё в канале ML Underhood можно полистать карточки, где автор подборки Александар Шишеня рассказывает, над чем трудился в прошедшем году и какие события в сфере ML считает главными.

CV Time
2 078 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 2

Продолжаем делиться самыми полезными публикациями прошлого года. Сегодня на очереди три статьи, которые рекомендует изучить Денис Кузнеделев, исследователь Yandex Research.

Improved Distribution Matching Distillation for Fast Image Synthesis

Авторы пытаются решить вопрос быстрой и качественной генерации картинок. В первой версии подхода из статьи One-step Diffusion with Distribution Matching Distillation предложили обучать вспомогательную модель (функцию fake score), чтобы она оценивала, насколько генерации «быстрой» модели похожи на результаты «медленной» модели-учителя. Подход работал неплохо, но всё же картинки от «быстрой» модели были хуже учительских.

В новой статье авторы существенно модифицировали решение. Теперь «быстрая» модель обновляется не каждый раз, а через несколько шагов функции fake score. Также добавили ещё одну вспомогательную модель-дискриминатор, которая оценивает реалистичность картинок, сгенерированных «быстрой» моделью. С этими изменениями удалось значительно улучшить качество при генерации в один и четыре шага.

Movie Gen: A Cast of Media Foundation Models

Осенью компания Meta* представила семейство моделей MovieGen для генерации видео. С фундаментальной точки зрения технический отчёт проекта предлагает немногое, но содержит ряд нетривиальных идей. В их числе — специальная регуляризация при обучении сети-автокодировщика, архитектурные решения для стабилизации и масштабирования обучения, специальное расписание диффузии.

Процесс сбора и подготовки данных включает как чисто картиночные данные, так и короткие видеоклипы разного разрешения и содержания. Модели умеют:

— генерировать видео по тексту;
— генерировать видео с целевым объектом (человеком, животным, предметом);
— редактировать видео на основе инструкций.

Дополнительно к видеомоделям исследователи и инженеры из Meta обучили модель для озвучки видео — MovieGen-Audio.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Авторы переосмысливают авторегрессию в картиночных моделях и предлагают токенизировать изображение по масштабу, а не по пространственным патчам. Новый класс моделей обгоняет предшественников по времени генерации, при этом не уступая по качеству. Подробнее расскажем о статье в следующей части подборки.

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
2 307 просмотров · 11 реакций Открыть в Telegram · Открыть пост на сайте
Analyzing The Language of Visual Tokens

Визуальные токены ≠ текстовые, но в мультимодальных моделях (например, LLaVA и Chameleon) они часто используются схожим образом, без искусственного разделения.

Авторы сегодняшней статьи исследуют, насколько близки естественные языки, образованные текстовыми токенами, и визуальные языки, образованные токенами визуальными. Для этого они сопоставляют визуальные языки COCO, ImageNet и других популярных датасетов, используя VQ-VAE-like токенайзеры и линеаризацию токенов изображений в 1D-последовательности (как на картинке). А потом сравнивают полученные для визуальных языков закономерности с зависимостями для естественных.

Ключевые результаты:

— В отличие от естественных языков, визуальные не подчиняются Zipf’s law: среди визуальных токенов нет превалирующих (для текстовых это, например, артикль the).
— Визуальные языки разнообразнее естественных: уникальные изображения чаще состоят из новых токенов. Авторы показывают это с помощью процесса Yule-Simon.
— Визуальные языки «естественны» — удовлетворяют Benford’s law.
— Пытаясь сжать визуальные токены кодированием Хаффмана, исследователи пришли к выводу, что визуальные языки хаотичнее, комплекснее и менее избыточны, чем естественные.
— Визуальные токены изображений чаще соотносятся с частями объектов, а не с целыми предметами.

Эмпирические исследования показали: хотя технически визуальные токены похожи на текстовые, составленные из них языки не совпадают.

По мнению авторов, это важно учитывать в обучении моделей: нейросети, которые работают с визуальными токенами, более подвержены переобучению. А комплексность и разнообразие визуальных языков требуют более долгой тренировки.

Обзор подготовил Никита Буров
CV Time
2 597 просмотров · 40 реакций Открыть в Telegram · Открыть пост на сайте
Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 1

Лучшие публикации прошедшего года не теряют актуальности в новом. Мы попросили постоянных авторов канала отметить самые полезные пейперы из 2024-го — несём вам первую часть подборки.

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Исследователи совместили набирающую популярность модель Flow Matching (Rectified Flow) и нейросетевую архитектуру DiT (Diffusion Transformer), чтобы адаптировать их для генерации изображений по тексту. Именно эта работа лежит в основе модели Stable Diffusion 3.

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models
В статье предложено новое архитектурное семейство картиночных кодировщиков DeepCompression-AE. Они позволяют сжимать изображения в 64 раза (по каждой стороне) с минимальными потерями. DC-AE значительно уменьшает затраты по времени и памяти при генерации, а также обладает высокой точностью реконструкции.

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Модели семейства InternVL регулярно оказываются в топе бенчмарков и составляют конкуренцию проприетарным моделям, вроде Gemini и GPT-4o. Авторы придерживаются открытого подхода к исследованиям — все веса моделей доступны для свободного использования. Основная статья была опубликована в конце 2023 года, но в 2024 вышли значимые обновления для версий 1.5, 2 и 2.5.

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
Как и предыдущая, эта статья даёт возможность узнать детали устройства state-of-the-art модели, в данном случае — text-to-image. Авторы приводят подробности об архитектуре, сборе датасета и стабилизации процесса обучения.

Chameleon: Mixed-Modal Early-Fusion Foundation Models
Статья задала тренд на развитие моделей, которые умеют нативно работать с изображениями как в дискриминативном, так и в генеративном форматах. Такая модель не только ответит на вопрос по изображению, но и при необходимости сгенерирует в своём ответе картинку.

Law of Vision Representation in MLLMs
Выбор картиночного бэкбона для мультимодальных LLM обычно происходит эмпирически: перебираем N вариантов и берём лучший по соотношению скорости и качества. В статье сделана попытка с научной точки зрения ответить на вопрос, что такое хороший картиночный бэкбон. Для этого авторы ввели свойства Alignment и Correspondence, которым должны соответствовать кандидаты. В дополнение можно прочитать неформальный блогпост от автора.

Продолжение следует.

Статьи отобрали и прокомментировали Александр Устюжанин и Артём Конев
CV Time
2 681 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
🏆 Итоги года: самые популярные посты в CV Time

2024-й на финишной прямой! Потихоньку настраиваемся на подведение итогов и освежаем в памяти самые популярные посты уходящего года. Уверены, это будет почти так же уютно, как пересматривать «Один дома» (только про компьютерное зрение).

Minimalist Vision with Freeform Pixels
Алиса Родионова разобрала статью с ECCV-24, получившую награду Best Paper Award. Авторы создали прототип автономной по электропитанию камеры. Вместо обычной матрицы в ней установлены 24 фотодиода с масками-фильтрами, которые выполняют роль первого слоя нейросети. Такая архитектура позволяет адаптировать камеру под разные задачи и получать результаты с помощью всего 8 пикселей. В обзоре — подробнее о том, как устроено решение.

Интересное с ECCV 2024
Ещё один пост с ECCV-24. Дарья Виноградова, Александр Устюжанин и Сергей Кастрюлин отобрали самые интересные доклады первого дня конференции. В их числе «механизм реалистичности» для сокращения доменного сдвига в 3D-рендеринге лиц, подходы к улучшению реализма в text-to-3D и image-to-3D моделях, а также концепция разделения Knowledge и Memory в нейросетях.

Как LLaMA 3.1 работает с изображениями
Роман Исаченко объяснил, как устроена мультимодальная LLaMA 3.1: какие архитектурные решения в основе, на каких данных её обучали и как она показывает себя на бенчмарках. Он подметил несколько интересных трюков. Среди них — подмена весов на этапе файнтюна через hot-swap и дополнительный пост-претрейн на датасете с редкими скриншотами и таблицами.

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 2
Александр Шишеня в двух постах рассказал, как устроена DART, диффузионная авторегрессионная модель для генерации изображений. В разборе вы найдёте детали о полезных модификациях, вроде DART-AR с ускорением обучения и DART-FM с Flow Matching для повышения качества генераций. Вторая часть оказалась ещё популярнее первой, — видимо, вам хотелось поскорее узнать развязку.

Pyramidal Flow Matching for Efficient Video Generative Modeling
Александр Маркович разобрал, как Sora-like модели создают видео. Авторы статьи предлагают отказаться от высокого разрешения ради скорости обучения и инференса. Интересная часть — пирамидальный подход: вместо многослойной генерации видео с постепенным апскейлом, как обычно, моделируют все разрешения сразу.

Впечатления от ECCV 2024
Мы попросили инженеров Яндекса подвести личные итоги конференции и рассказать, чем она запомнилась. В посте собрали рекомендации свежих работ по CV и любопытные заметки на полях. Среди трендов заметили фокус на исследованиях за пределами области text-to-image и спад интереса к узким темам. Все детали — на наших красочных карточках.

Movie Gen: A Cast of Media Foundation Models
Денис Кузнеделев взял оригинальный технический отчёт проекта и разобрал решения, использованные в моделях для генерации видео Movie Gen. Некоторые идеи оказались нетривиальными, например, регуляризация при обучении сети-автокодировщика, архитектура для стабилизации и масштабирования обучения, специальное расписание диффузии. Больше подробностей — по ссылке.

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
2 465 просмотров · 19 реакций Открыть в Telegram · Открыть пост на сайте
LLaVa-CoT: Let Vision Language Models Reason Step-by-Step

Сегодня разберём статью о подходе к обучению и инференсу VLM, вдохновлённом o1-preview от OpenAI.

Авторы начали со сбора 100 тысяч сэмплов из открытых VQA-бенчмарков (и пообещали выложить получившийся датасет!). Потом для этих сэмплов с помощью GPT-4o сгенерировали CoT-синтетику со следующими блоками:

Summary — развернутое описание решаемой проблемы;
Caption — описание изображения с учетом деталей, релевантных задаче;
Reasoning — step-by-step решение задачи;
Conclusion — финальный ответ.

После на этих данных сделали full-finetune поверх Llama-3.2-11B-Vision-Instruct (кстати, всего на восьми H100).

Уже на этом этапе модель стала заметно умнее своего бейзлайна: 56,6 → 63,5 средних попугаев. Но авторы выбили еще полтора попугая за счет собственного inference-time скейлинга: Stage level Beam Search. По сути, это обычный BS. Только ветвление происходит на уровне целых блоков CoT, а не на уровне отдельных предложений.

По замерам авторов, их модель в максимальном сетапе обходит Gemini-1.5-Pro и приближается к Claude3.5-Sonnet (см. табличку). До GPT-4o, правда, еще далековато.

Обзор подготовил Павел Штыков
CV Time
2 188 просмотров · 21 реакций Открыть в Telegram · Открыть пост на сайте
Роботы — круто

А статьи о робототехнике — ещё круче. Руководитель группы нейросетевых технологий Yandex.Robotics Виктор Юрченко рекомендует семь интересных работ по теме. Все подробности — в карточках.

CV Time
6 699 просмотров · 38 реакций Открыть в Telegram · Открыть пост на сайте
Тематическая подборка статей: картиночные модели

Сегодня у нас новая подборка с рекомендациями нескольких интересных статей. В центре внимания — модели для работы с изображениями и статьи, где авторы предлагают идеи для их развития и улучшения в разных аспектах.

Архитектура
MoH: Multi-Head Attention as Mixture-of-Head Attention
Авторы переносят Mixture-of-Experts в аттеншн: предлагают относиться к головам как к экспертам и активировать только часть из них. Показывают, что так можно дотюнить обученные модели и что этот подход работает для широкого класса задач. На ViT и Llama3 получили неплохие результаты, но непонятно, можно ли теоретический профит перенести на практику.

Дообучение
Locality Alignment Improves Vision-Language Models
Ресерчеры предлагают использовать схему с маскированием для дообучения CLIP-трансформеров, которое улучшает их качество как VLM-бэкбонов на пространственных задачах.

When Does Perceptual Alignment Benefit Vision Representations?
Исследователи файнтюнят через LoRA бэкбоны на датасете Nights (20 тысяч триплетов с разметкой, где отражено, какое из двух изображений более похоже на первое с т. з. человека) и пишут, что после этого модели извлекают более хорошие фичи для широкого класса задач. Удивляет, что в 20 тысячах триплетов оказалось достаточно информации, чтобы заметно повлиять на качество модели.

Дистилляция
TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
Авторы говорят, что при дистилляции между моделями разных семейств (CNN/MLP/ViT) можно использовать модель-ассистента, состоящую из блоков разного типа. Это позволяет повысить гибкость и расширить потенциал дистилляции знаний в случае, если у модели-учителя и ученика разные архитектуры.

Датасеты
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
Датасет с блюдами разных стран и культур, 6 тысяч изображений. Очень много авторов для такой узкой темы и разнообразная аннотация как бонус.

Подборку подготовил Артём Конев
CV Time
2 685 просмотров · 23 реакций Открыть в Telegram · Открыть пост на сайте
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 3, эксперименты и результаты

Мы обучили 2.5B модель на внутреннем датасете из 100М картинок. В качестве бейзлайнов взяли сравнимые по размеру SD3-Medium, Lumina-Next, Stable Diffusion XL и её дистиллированные версии: SDXL-Turbo, DMD2; а также авторегрессионные модели: Emu3, Lumina-mGPT, LlamaGen и HART.

Для оценки качества использовали стандартные метрики: FID, CLIP, Pickscore, Image Reward, — а также бенчмарк GenEval и пользовательские предпочтения на корзинке из 128 запросов (Parti Prompts). Юзеры оценивали релевантность, эстетичность, комплексность и дефектность изображений.

Switti значительно превзошла существующие авторегрессионные подходы, как по метрикам, так и по пользовательским предпочтениям. С диффузионками добились паритета по качеству, но при этом Switti генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.

Отметим, что это пока лишь шаг в развитии новой генеративной парадигмы и ещё есть, куда расти, чтобы дотянуть качество до уровня ведущих генеративных моделей: YaART, Midjourney, FLUX, Recraft и Ideogram-v2. Наша команда уже приступает к дальнейшему развитию Switti. Так что следите за обновлениями!

Обзор подготовил
Дмитрий Баранчук
CV Time
2 361 просмотров · 37 реакций Открыть в Telegram · Открыть пост на сайте
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 2, методы

Приступив к созданию Switti (Scale-wise transformer for text-to-image), мы взяли за основу архитектуру STAR и начали постепенно её улучшать. Оригинальная модель оказалась нестабильной при обучении, и, мотивируясь работами по диффузионным трансформерам, мы добавили в модель дополнительные нормализационные слои, что стабилизировало обучение и улучшило итоговое качество.

Затем мы обратили внимание, что модель на входе на текущем уровне уже получает информацию о всех предыдущих уровнях по построению и при этом дополнительно смотрит на них с помощью attention-слоев, что показалось нам лишним и неэффективным. Убрав авторегрессию на прошлые разрешения, удалось ускорить пайплайн генерации для 512х512 изображений на 11%, уменьшить потребление памяти и немного улучшить качество генерации.

Также мы заметили, что модель слабо опирается на текстовые описания на самых последних уровнях генерации. Это натолкнуло на мысль, что можно не использовать технику classifier-free-guidance (CFG) на уровнях высокого разрешения. Напомним, что CFG играет важную для повышения качества генерации и соответствия запросу в text-to-image моделях, но при этом требует дополнительный прогон модели на каждом шаге. Поэтому отключение CFG на последних уровнях значительно ускоряет генерацию. Более того, мы заметили, что помимо скорости, модель также продуцирует меньше артефактов при генерации мелких деталей и позволяет использовать более высокие значения CFG без ущерба качеству.

Обзор подготовил Дмитрий Баранчук
CV Time
1 807 просмотров · 26 реакций Открыть в Telegram · Открыть пост на сайте