CV Time — пост #55

Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 1

Лучшие публикации прошедшего года не теряют актуальности в новом. Мы попросили постоянных авторов канала отметить самые полезные пейперы из 2024-го — несём вам первую часть подборки.

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Исследователи совместили набирающую популярность модель Flow Matching (Rectified Flow) и нейросетевую архитектуру DiT (Diffusion Transformer), чтобы адаптировать их для генерации изображений по тексту. Именно эта работа лежит в основе модели Stable Diffusion 3.

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models
В статье предложено новое архитектурное семейство картиночных кодировщиков DeepCompression-AE. Они позволяют сжимать изображения в 64 раза (по каждой стороне) с минимальными потерями. DC-AE значительно уменьшает затраты по времени и памяти при генерации, а также обладает высокой точностью реконструкции.

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Модели семейства InternVL регулярно оказываются в топе бенчмарков и составляют конкуренцию проприетарным моделям, вроде Gemini и GPT-4o. Авторы придерживаются открытого подхода к исследованиям — все веса моделей доступны для свободного использования. Основная статья была опубликована в конце 2023 года, но в 2024 вышли значимые обновления для версий 1.5, 2 и 2.5.

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
Как и предыдущая, эта статья даёт возможность узнать детали устройства state-of-the-art модели, в данном случае — text-to-image. Авторы приводят подробности об архитектуре, сборе датасета и стабилизации процесса обучения.

Chameleon: Mixed-Modal Early-Fusion Foundation Models
Статья задала тренд на развитие моделей, которые умеют нативно работать с изображениями как в дискриминативном, так и в генеративном форматах. Такая модель не только ответит на вопрос по изображению, но и при необходимости сгенерирует в своём ответе картинку.

Law of Vision Representation in MLLMs
Выбор картиночного бэкбона для мультимодальных LLM обычно происходит эмпирически: перебираем N вариантов и берём лучший по соотношению скорости и качества. В статье сделана попытка с научной точки зрения ответить на вопрос, что такое хороший картиночный бэкбон. Для этого авторы ввели свойства Alignment и Correspondence, которым должны соответствовать кандидаты. В дополнение можно прочитать неформальный блогпост от автора.

Продолжение следует.

Статьи отобрали и прокомментировали ❣ Александр Устюжанин и Артём Конев
CV Time