CV Time — пост #167

Тематическая подборка статей: дискриминативные модели

Свежая подборка статей о методах улучшения взаимодействия текста и изображений в мультимодальных моделях. В центре внимания — файнтюн CLIP для понимания отрицаний, новые подходы к retrieval, оптимизации архитектур Vision Transformer и многое другое.

Дообучение CLIP-моделей

TNG-CLIP: Training-Time Negation Data Generation for Negation Awareness of CLIP

Предлагают пайплайн файнтюна текстовой части CLIP на понимание отрицаний: на лету для батча генерируют новые тексты, содержащие отрицания, используя тексты с похожих картинок для усложнения задачи. Также показывают, что можно подменить текстовый энкодер в предобученной диффузионной модели, и генерации с отрицаниями в промпте тоже станут лучше.

Visualized Text-to-Image Retrieval

Авторы говорят, что вместо text-to-image retrieval можно сначала сгенерировать картинку по текстовому запросу, а потом уже делать image-to-image retrieval чисто по картиночным фичам. Тестируются на специфических постановках задач типа RAG, но идея интересная.

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

Доливают в обучение CLIP датасет с геометрией и используют полученную модель как энкодер в VLM. Геометрические датасеты добавляют и в другие стадии обучения VLM, но основная новизна в том, как сделать файнтюн на геометрию в CLIP-постановке.

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation

Для дообучения CLIP собирают модель-учитель, которая извлекает картиночные фичи по выделенным через YOLO областям и агрегирует их через cross-attention с текстовыми фичами; затем этот учитель используется для дистилляции. С ростом качества на retrieval-задачах метод просаживает точность zero-shot-классификации.

Vision Transformers with Self-Distilled Registers

Изучают проблему токенов-аутлаеров в трансформерных моделях, описанную в статье Vision Transformers Need Registers. В ней предложили на вход модели подавать токены-регистры. Также авторы пишут, что такие токены можно добавлять в уже обученную модель и файнтюнить её так, чтобы аутлаеры «перетекали» в добавленные токены.

Архитектура дискриминативных моделей

Taming Transformer Without Using Learning Rate Warmup

Связывают нестабильность в обучении трансформеров с тем, что матрица аттеншена становится низкоранговой и разреженной. Предлагают добавить в Adam ограничение на learning rate для апдейтов, которые имеют высокую спектральную норму по сравнению с текущей матрицей. Показывают, что в этом случае возможно обучение без lr-warmup'а.

RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers

Применяют идеи из ShuffleNet к ViT: в FFN-блоке делают нелинейность только для части нейронов промежуточного слоя — вторую часть можно после обучения вмерджить в одну линейную операцию. Также заменяют LayerNorm на BatchNorm и его тоже вмердживают после обучения. Но тестируют всё это только на ImageNet, есть подозрение, что на более сложных датасетах профита не будет.

TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

Решают zero-shot-сегментацию и смежные задачи, предлагают пайплайн, в котором объединяют SAM и CLIP-модель: через SAM находят области с объектами, и в CLIP-модели модифицируют аттеншен последнего слоя, чтобы он смотрел на каждую область по отдельности — таким образом получают токены для областей, которые уже можно сопоставлять с текстовыми представлениями класса и делать сегментацию.

REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders

Отличие от предыдущей статьи в том, что теперь область интереса на картинке кодируем координатами точки. Имея предобученный бэкбон, добавляем к нему голову, которая по координатам точки смотрит на карту признаков и возвращает эмбеддинг соответствующего ей объекта; SAM теперь используется только на этапе обучения.

Подборку подготовил ❣ Артём Конев
CV Time