Спешим поделиться очередной подборкой публикаций — на этот раз о генерации.
Обучение
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis
Авторы обучили 1B-трансформер для генерации изображений, используя VQ-VAE и masked image modelling. По словам инженеров, модель достигла уровня SD XL, что они считают успехом.
Improving Long-Text Alignment for Text-to-Image Diffusion Models
Исследователи пробуют модифицировать Stable Diffusion для работы с длинными текстами. Для этого их нарезают на сегменты, которые по отдельности кодируют через CLIP. Также проанализировали CLIP-реворд, разделив его на text-relevant и text-irrelevant части (последние стремятся сделать картинки более комплексными). Дополнительно в статье показано, что T5-энкодер можно на файнтюне добавлять к CLIP-предобученной модели.
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens
В статье попарно сравнивают четыре подхода к генерации изображений трансформерами: авторегрессивная генерация vs генерация токенов на рандомных позициях, а также предсказание continuous-токенов vs предсказание дискретных токенов из словаря.
Побеждает предсказание continuous-токенов на случайных позициях, но авторам не удалось выровнять качество continuous и дискретных автоэнкодеров — эта часть вызывает вопросы. Авторы отдельно замечают, что лосс на валидации хорошо коррелирует с метриками. Об этом упоминалось и в статье о Movie Gen (пункт 3.6.1, абзац «Correlation between validation loss and human evaluation»).
Бенчмарки
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities
В работе создали корзину концептов из «Википедии» с изображениями-референсами и замерили на ней Imagen, Flux, Stable Diffusion и прочие модели. Выяснилось, что те из них, что на вход принимают картинку-референс (InstructImagen, DreamBooth), лучше воспроизводят концепты, но часто ценой худшего следования промпту. Также авторы сравнили разметку людьми с автооценкой через CLIP/DINO, и ранжирование моделей поменялось (корреляция 0,3–0,5, что указывает на возможность подобрать лучшие модели).
Видео
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content
Исследователи собрали датасет для обучения видеодиффузионной модели: описали процесс video splitting, схему кэпшнинга и фильтрации. В работе по набору классификаторов учатся предсказывать, насколько видео подходит для добавления в обучающее множество, а также кондишнят генерацию на классификаторы по видео.
Movie Gen: A Cast of Media Foundation Models
Большая статья, в которой Meta адаптирует архитектуру Llama3 с 30B параметров для генерации видео. Интересные моменты:
— используют три текстовых энкодера: UL2, ByT5 и CLIP, которые во время обучения считаются на лету;
— в ByT5 подают только текст, который нужно отрисовать (предлагают помещать его в кавычки в промпте);
— тюнят Llama3 для переформулировки промптов, приближая их к трейну;
— добавляют дополнительный лосс для борьбы с точками-артефактами при обучении VAE;
— обучение начинается с изображений разрешением 256px;
— получают финальную модель путём усреднения весов моделей, дообученных на разных датасетах и гиперпараметрах.
Другое
On the Effectiveness of Dataset Alignment for Fake Image Detection
Авторы описывают хитрый способ обучить классификатор синтетических картинок. Для этого реальные изображения (неважно какие) кодируются и декодируются через VAE — и дальше к ним относятся, как к синтетическим.
Таким образом получается датасет пар картинок, которые отличаются только артефактами VAE — на нём можно обучить детектор синтетических картинок. Но есть нюансы: пайплайн может быть чувствителен к постобработке картинок, и может плохо переноситься на модели с сильно отличающимися VAE.
Обзор подготовил
CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ