InternVL

Визуальные модели в своем развитии несколько отстают от языковых, хотя и то, и то важно для создания сильного искусственного интеллекта (AGI). Преодолеть разрыв попытались авторы сегодняшней статьи, в которой представлена модель InternVL.

InternVL отличается тем, что включает визуальный энкодер InternViT-6B и языковую прослойку QLLaMA с 8 миллиардами параметров. Обучение проходило в несколько этапов:

1. Контрастивный претрейн. Здесь использовали миллионы пар изображений и текстов из датасетов LAION, COYO, CC12M. На этом этапе модель училась сопоставлять картинки и их описание.

2. Генеративный претрейн. Здесь использовали пары с более чистыми изображениями из таких датасетов, как COCO и TextCaps. На этом этапе модель училась создавать текстовое описание для картинок.

3. Файнтюнинг.

В итоге получились две модели, которые призваны решать одну задачу: InternVL-C (contrastive) и InternVL-G (generative). Первая, по сути, это модель раннего связывания, а вторая — позднего. На бенчмарках можно увидеть, какой результат дает ранняя и поздняя привязка изображения к тексту.

Так, в задаче мультиязычного поиска изображений по тексту на наборе данных XTD, средний показатель recall@10 составил 95,1% для InternVL-C и 96,6% для InternVL-G. В задаче zero-shot классификации видео на наборах данных Kinetics-400, Kinetics-600 и Kinetics-700, InternVL-C продемонстрировала точность 76,1%, 75,5% и 67,5% соответственно.

Разбор подготовил Артём Конев
CV Time