Scaling Laws of Motion Forecasting and Planning

Waymo, подразделение беспилотных автомобилей Google, выпустили техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.

Сегодня разберёмся, есть ли оптимальное соотношение между размером нейросети и количеством обучающих примеров: такое, чтобы получить лучший результат в рамках заданного бюджета вычислений.

Архитектура модели — обычный для планировщиков энкодер-декодер трансформер. Энкодеру c early fusion подают на вход информацию о сцене: дорожный граф, историю агентов (людей, машин, светофоров и других участников дорожного движения) за последние 5 секунд. Декодер из полученных эмбеддингов предсказывает дискретные ускорения для 8 агентов, а конечные траектории эго-автомобиля и других агентов восстанавливаются по Verlet.

В отличие от Wayformer и MotionLM, где фичи агента кодируются в локальной системе координат каждого агента, в этой статье кодирование происходит в одной системе — в системе координат эго (global frame).

Авторы обучали модель в режиме teacher forcing, используя cross-entropy loss. Датасет состоял из 6 млн уникальных и разнообразных (по утверждениям авторов) проездов, из которых простой фильтрацией и дедупликацией сэмплировали тридцатисекундные сегменты. Для получения большего числа сцен из этих сегментов используют скользящее окно 1,5 секунды.

Всего авторы обучили 84 модели (от 900K параметров до 118M). Они систематически меняли размеры модели, датасета и бюджета вычислений. Число параметров варьировали за счёт количества слоев энкодера и декодера (соотношение ширины к глубине — 8 или 16). В одинаковый бюджет модели с меньшим и большим числом параметров укладывались изменением числа шагов в обучении.

🔴Аналогично LLM, производительность модели повышается в зависимости от общего бюджета вычислений.
🔴Лосс обучения модели сильно коррелирует с метриками её оценки.
🔴Сlosed-loop-метрики улучшаются при масштабировании — это важно в рассуждениях о пригодности показателей open-loop для разработки моделей.
🔴Training loss параметризуют как L(N, D), где N — число параметров в модели, D — размер датасета. Оптимальные значения N, D ищут при фиксированном бюджете C (FLOPs). В ходе экспериментов N_opt ~ C^(0,63), D_opt ~ C^(0,44), iso-FLOPs кривые моделировали параболами, которые отличаются для разных категорий агентов.
🔴При исследовании масштабируемости по мере увеличения бюджета на инференсе сэмплировали разное число мод, после кластеризации их оставалось 6. Сначала качество по distance-метрикам растёт, потом наступает момент, когда дальнейшее увеличение бюджета нецелесообразно. От себя добавлю, что здесь было бы интереснее посмотреть, как меняется closed-loop performance.
🔴Авторы сравнили сетапы с эго-агентом в лоссе и без, оценивая качество по эго val loss. В первом случае значение функции потерь ожидаемо оказывается лучше. Но для сетапа с zero-shot предсказанием эго-качество тоже улучшается по мере увеличения бюджета. Для достижения таких же результатов, как в сетапе с эго-агентом, zero-shot требуется больше данных (примерное соотношение — 2-3 к 10).

Разбор подготовил ❣️ Павел Лукьянов
404 driver not found