Душный NLP — пост #135

ICLR 2025: что нового в мультимодальном ранжировании

На Хабре вышла статья Алексея Спасёнова и Кирилла Никорова из Поиска Яндекса по картинкам и видео. Алексей и Кирилл побывали на конференции ICLR, которая прошла в апреле в Сингапуре, и привезли с собой не только впечатления, но и (возможно) загар, и (совершенно точно) подборку интересных статей. Полностью ознакомиться с ней вы можете на Хабре, а здесь расскажем о нескольких работах.

Multi-Field Adaptive Retrieval

Работа от авторов из Northeastern University, Augment Code и Microsoft посвящена улучшению поиска по структурированным данным с произвольным числом блоков с помощью подхода под названием Multi-Field Adaptive Retrieval (MFAR).

Авторы комбинируют близость лексикографическую (BM25) и семантическую — на основе векторных представлений. Для вычисления близости между запросом и документом используется скалярное произведение (dot product), а энкодеры дообучаются в контрастивном режиме.

Также применяется механизм внимания: модель учится определять значимость каждого блока документа относительно запроса. На этапе генерации кандидатов сначала выбираются топ-k документов стандартными методами ретривала, после чего проводится уточнение результатов с помощью MFAR.

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

Авторы из Boston University предлагают подход к задаче Domain Generalization — улучшение обобщающей способности моделей без доступа к целевому домену.

Они улучшают качество поиска с использованием Approximate Nearest Neighbor (ANN) за счёт уточнённых эмбеддингов объектов. Для этого используется аугментация текстовых описаний классов: к каждому классу генерируется набор вариантов запросов, после чего вычисляются эмбеддинги этих текстов.

Центроиды изображений смещаются в сторону усреднённых позиций, рассчитанных относительно эмбеддингов аугментированных текстов. Полученные представления используются для дообучения CLIP — таким образом модель становится более устойчивой к вариативности запросов и доменных сдвигов.

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

В этой статье авторы предлагают новую архитектуру для ранжирования видео по текстовому запросу. Temporal Token Merging (TempMe) — эффективная в вычислительном плане архитектура с небольшим количеством параметров. Основа архитектуры — text-video-CLIP-модель.
Выигрыш в вычислительном плане достигается благодаря так называемым блокам Intra- и Cross-clip Merging. В них происходят агрегации эмбеддингов похожих кадров и патчей. Тем самым от слоя к слою уменьшается не только пространственная размерность, но и временная.

Авторы получают ускорение в 1,8 раза и улучшение качества ранжирования видео на 4,4% (в терминах mAR@10), по сравнению с предыдущими вычислительно эффективными методами text-video retrieval. В данных использовались как очень короткие видео по 4–5 секунд (датасет LSMDC), так и довольно продолжительные — вплоть до 20 минут (датасет ActivityNet). Однако домен всех датасетов, конечно же, сильно смещён относительно стандартного поискового потока.

#YaICLR

Душный NLP