Сегодня разберём статью на стыке perception и BL (behavior layer). Объединив очень разные элементы восприятия (perception) и предсказания (prediction) робота, команда Waymo улучшила обнаружение 3D-объектов для детекторов, которые работают с облаками точек и их последовательностями.
В чём проблема? Современные системы плохо справляются с обнаружением перекрытых и удалённых объектов. Обработка множества лидарных кадров требует огромных ресурсов. Можно было бы фьюзить облака точек на уровне объектов, потому что это дешевле с точки зрения вычислений. Но тогда возникают проблемы с выравниванием (alignment).
Система MoDAR вместо прямой обработки всех кадров использует прогнозирование движения как дополнительную модальность. Алгоритм создаёт виртуальные точки с информацией о предсказанных позициях объектов из прошлых и будущих кадров.
Способ, который придумали авторы, помогает прокачать качество обработки облаков. На основе предсказаний траекторий из BL они создали для детектора виртуальную модальность под названием MoDAR (по аналогии с LiDAR).
Точки MoDAR — это центры объектов по предсказаниям из прошлого в настоящее (онлайн) и из будущего в настоящее (офлайн). Они образуют новую легковесную модальность: число точек, полученных из временного контекста 18 секунд (9 из прошлого + 9 из будущего) меньше, чем в одном лидарном фрейме.
Полный флоу решения — на схеме. Авторы используют два 3D-детектора: CenterPoint и SWFormer. В качестве модели предсказания движения выбрали MultiPath++, обученный на Waymo Open Motion Dataset.
На 3-frame SWFormer + 18 секунд MoDAR удалось существенно повысить качество (mAPH) в сложных кейсах (L2-срез на Waymo Open Dataset). При этом практически SoTA-результат не требует значительных дополнительных вычислительных затрат.
404 driver not found