404 Driver Not Found — пост #12

SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection

О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась китайская статья, которую разберём сегодня.

Встречайте новый фреймворк SimpleBEV для слияния данных лидара и камер. Его фишка — максимальная простота при топовой точности.

SimpleBEV — по сути, улучшенный BEVFusion. Верхнеуровнево они мало чем отличаются, но если присмотреться повнимательнее, можно заметить два основных обновления.

Во-первых, способ, которым авторы получают глубину изображения и переводят то, что сняли камеры, в 3D-сцены: умное поднятие камеры.

1. Просят каскадную нейросеть предсказать глубину по картиночным фичам.
2. Ground truth проецируют лидарные точки на картинки с камер. Облако точек разрежено, поэтому получить глубину ground truth получится не для всех из них.
3. Конкатенируют данные из пункта 1 и 2, чтобы получить композитное распределение глубины — заполняют пробелы лидарных данных предсказаниями нейросети.

Во-вторых, архитектура лидарного энкодера. Все 3D-карты разных масштабов, получившиеся после вокселизации и Sparse-свёрток, авторы конкатенируют и переводят в BEV. По их словам, это помогает терять меньше информации с мелкими масштабами.

Кроме этого, авторы использовали ансамблирование и TTA. А ещё — увеличили количество hidden-размерностей в лидарном энкодере. Кода нет, поэтому цифрами подтвердить это предположение не получится.

Всё это позволило получить на тестовом датасете NDS = 77,6 — что соответствует топ-3–топ-4 на nuScenes. NDS разных модификаций BEVFusion при этом — 71,8 и 72,9. То есть улучшения подрастили метрику на 5+ единиц.

Для валидации ансамблирование и TTA не использовали, а разрешение картинок было поменьше. Значения метрик при такой постановке задачи уменьшились, но SimpleBEV всё ещё впереди других версий BEVFusion: 73,5 против 71,0 и 71,4.

Наибольший рост метрик помогает получить комбинация transformer-based head, аугментации вставками, multi-scaled feature fusion и увеличения каналов лидарного энкодера в 2 раза.

SimpleBEV доказывает: иногда простые решения работают лучше, не стоит гнаться за сложными фьюжн-архитектурами. Качественное выравнивание данных в BEV, простое сложение признаков и мощный тренировочный пайплайн дали авторам почти SoTA-результат с меньшими вычислениями, что делает SimpleBEV очень практичным кандидатом для реальных систем.

Разбор подготовил ❣️ Иван Лунев
404 driver not found