UnO + GASP

Сегодня обсудим две похожие и крайне интересные статьи на довольно редкую в сфере автономного транспорта тему претрейна — UnO: Unsupervised Occupancy Fields for Perception and Forecasting и GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving.

Первая статья вышла в июне 2024 года. Её авторы, коллеги из Waabi, вдохновились идеями из мира LLM и придумали, как запускать SSL-претрейн BEV-like-энкодеров. Для этого они:

1. Прогоняют сцену через энкодер, получая BEV.
2. Затем генерируют query:
2.1 Луч лидара летит от ego до объекта. Если на пути луча нет препятствий, значит для любой точки на этом отрезке occupancy равняется нулю (можно ехать).
2.2 Когда луч лидара попадает в объект, в этой точке (плюс eps за эту точку) occupancy равняется единице.
3. Через Deformable Attention подтягивают фичи с BEV для каждой точки из пункта 2 и решают задачу классификации occupancy.
4. Query можно генерировать из «будущих кадров», то есть предсказывать occupancy для точек x, y, z, t.

В результате энкодер выучивает какие-то разумные фичи сцены и понимает, куда движутся объекты в сцене. Авторы также делают SFT для семантической сегментации BEV и показывают, что их претрейн даёт хорошие результаты, особенно при нехватке размеченных данных.

В марте 2025-го другая группа исследователей выпускает статью о развитии метода — GASP. Здесь авторы добавляют ещё несколько UnO-like-голов. В этом подходе для каждой точки query можно предсказывать не только occupancy, но и DINO-фичи, которые проецируются с картинки на лидарную точку. Таким образом семантика «проливается» в претрейн.

Кроме того, зная GT-траекторию, можно сэмплировать из неё точки (а также некоторый радиус) и задавать этим точкам класс 1, а остальным — 0, затем решая классификацию вида «хотим ли мы туда ехать».

Далее авторы делают SFT на тех же задачах, что и в UnO, получая ещё более качественные результаты. GASP — по сути тот же UnO, но быстрее, выше, сильнее.

Разбор подготовил ❣️ Денис Глазов
404 driver not found