CV Time — пост #58

Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 3

Сегодня делимся подборкой от Александра Шишени, ведущего разработчика службы компьютерного зрения в Яндексе. Он выбрал интересные направления и статьи в них, чтобы нам не пришлось рыться в тоннах публикаций.

Авторегрессионная генерация изображений

SWITTI: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Команда исследователей из Yandex Research обучила и опубликовала в открытом доступе собственную авторегрессионную модель для генерации изображений по тексту. За основу взяли архитектуру STAR и провели ряд улучшений:
— добавили дополнительные нормализационные слои для стабилизации обучения;
— убрали авторегрессию на прошлые разрешения — тем самым ускорили генерацию и уменьшили потребление памяти;
— отключили технику classifier-free-guidance (CFG) на высоких разрешениях — получили значительное ускорение без ухудшения качества генерации.
В результате Switti имеет паритет по качеству с диффузионками, но при этом генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.
Можно также прочитать подробный разбор решения в трёх частях: первая, вторая, третья.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
Один из недостатков авторегрессионных моделей — низкая скорость генерации изображений. Чтобы решить эту и другие проблемы, ByteDance предложили альтернативную авторегрессионную парадигму, которая включает:
— многомасштабный VQ-VAE для одновременного кодирования и декодирования изображений на нескольких уровнях разрешения;
— обучение трансформера для последовательной генерации токенов изображения с постепенным увеличением масштаба.
В результате удалось добиться качества, сопоставимого с современными диффузионками, обученными на ImageNet, и при этом превзойти их по скорости.

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
Авторы Infinity∞ продолжают развивать идеи масштабируемой авторегрессионной генерации. Их решение использует битовую токенизацию с бесконечным словарём и механизмом самокоррекции. Результат — заметно повышается качество генерируемых изображений.

Диффузионные модели

Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling
На стадии инференса диффузионных моделей приходится делать много итераций, так как траектории сэмплирования, определяемые моделью, существенно отклоняются от прямых.

Это во многом связано с тем, что процесс зашумления в стандартной диффузии задаётся фиксированной формулой. Авторы предлагают обобщить диффузионные модели с подходом flow-matching, добавив обучаемое зашумление. Это позволяет адаптировать процесс зашумления так, чтобы траектории минимально отклонялись от прямых. Интересно, что такая постановка приводит к решению задачи оптимального транспорта.

✨А ещё в канале ML Underhood можно полистать карточки, где автор подборки Александар Шишеня рассказывает, над чем трудился в прошедшем году и какие события в сфере ML считает главными.

CV Time