Спешим со свежей подборкой интересных статей. В этот раз — о моделях для работы с изображениями. CLIP остаётся в центре внимания исследователей, но вопросы к его фичам не исчезают. Также делимся несколькими работами по архитектуре нейросетей и оптимизации для мобильных устройств.
Image-to-Text
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion
Статья подтверждает наше наблюдение, что фичи CLIP плохо подходят для image-to-image retrieval. Авторы углубляются в проблему, используя текстовую и картиночную инверсию, но практических решений не предлагают.
CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally
Исследователи показывают, что фичи CLIP ведут себя как «мешок слов» только при взаимодействии между доменами картинок и текстов, а внутри одного домена сохраняют структуру. Например, «синий куб и красный шар» ≠ «красный шар и синий куб» — то же верно и для изображений. Это значит, что проблема может быть не в самих эмбеддингах, а в их междоменном взаимодействии. Авторы предлагают обучить линейный слой с negative-текстами поверх текстовой модели — на синтетическом датасете этот подход показывает неплохие результаты.
Disentangling CLIP Features for Enhanced Localized Understanding
В статье предлагают дополнительные лоссы, которые помогают «распутать» фичи CLIP. Авторы дообучают головы поверх текстовой и визуальной частей. Метод выглядит специфично, но к некоторым идеям стоит присмотреться.
CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe with Sparse Upcycling
Модель инициализируется из обычного CLIP, но в каждом втором MLP-блоке заменяют слои на смесь из восьми экспертов, из которых активируются два. Для обучения предлагают использовать комбинацию из шести лоссов.
Архитектура
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
В статье утверждают, что уменьшение размера патча в трансформерах с 16×16 до 1×1 улучшает качество модели. При этом для моделей, у которых уменьшен размер входного патча, не нужна сложная архитектура головы при адаптации под dense-задачи (например, сегментация и оценка глубины).
iFormer: Integrating ConvNet and Transformer for Mobile Application
В статье описана архитектура со свёртками и аттеншном, заточенная под инференс на iPhone. Основой служит ConvNeXt, который дорабатывают, чтобы сделать сеть более лёгкой. Помимо этого, предлагают использовать слои аттешна с одной головой для модуляции карт признаков — было бы интересно сравнить это с более простым и популярным блоком «squeeze and excitation».
Подборку подготовил
CV Time