<?xml version='1.0' encoding='utf-8'?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>404 Driver Not Found</title><link>https://ml-brand.github.io/DriverNotFound/</link><description>Зеркало Telegram-канала DriverNotFound</description><atom:link href="https://ml-brand.github.io/DriverNotFound/feed.xml" rel="self" type="application/rss+xml" /><lastBuildDate>Fri, 03 Apr 2026 22:16:30 +0000</lastBuildDate><item><title>π0: A Vision-Language-Action Flow Model for General Robot Control</title><link>https://t.me/DriverNotFound/50</link><guid>https://t.me/DriverNotFound/50</guid><pubDate>Wed, 01 Apr 2026 12:37:38 +0000</pubDate><description>&lt;strong&gt;π0: A Vision-Language-Action Flow Model for General Robot Control&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://www.pi.website/blog/pi0" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt; о важной для self-driving теме из смежной области — как делать large-scale pre-training, если обучающих данных исчезающе мало.&lt;br&gt;&lt;br&gt;У ребят, которые создают автономных роботов, обучающих датасетов ещё меньше, чем у нас. Авторы из команды Physical Intelligence предлагают решение: прикручивают flow-matching-декодер для экшнов к VLM, натренированной на internet-scale-датасете.&lt;br&gt;&lt;br&gt;Архитектурно эта система устроена следующим образом:&lt;br&gt;&lt;br&gt;1. Изображения с камер и текст задания попадают в префикс, проходят через VLM (PaliGemma 3B на базе Gemma 2) — получается KV-кэш.&lt;br&gt;&lt;br&gt;2. В получившуюся последовательность после префикса добавляют эмбеддинг текущего состояния — вектора Q из 18 float-значений.&lt;br&gt;&lt;br&gt;3. Траекторию на H=50 шагов, предсказывают с помощью flow-matching-декодера на 300M параметров, используя KV-кэш из 1 и 2.&lt;br&gt;&lt;br&gt;Если у робота меньше трёх камер, вместо недостающих изображений указывают нули. Аналогично, если размерность стейта меньше 18, дополняют вектор нулями до 18 значений.&lt;br&gt;&lt;br&gt;При этом у аттеншна блочно-каузальная маска:&lt;br&gt;&lt;br&gt;🔴 префикс учитывает только собственные данные,&lt;br&gt;🔴 вектор состояния Q ориентируется и на себя, и на префикс,&lt;br&gt;🔴 траектория опирается и на собственные значения, и на Q, и на префикс,&lt;br&gt;🔴 внутри каждого блока маска полная: все смотрят на всех.&lt;br&gt;&lt;br&gt;Так как префикс лежит в KV-кэше, важно, чтобы у декодера траектории были те же количество слоёв и размерность слоя. Но можно уменьшить размерность в MLP: именно так удаётся получить 300M параметров в декодере траектории при 3B в VLM.&lt;br&gt;&lt;br&gt;Сначала модель претрейнят на составном датасете:&lt;br&gt;&lt;br&gt;🔴 9,1% разнообразных опенсорс-данных — Oxe Magic Soup (2 Гц + 10 Гц),&lt;br&gt;🔴 остальные 90% (903M таймстепов на 68 заданий для single-/dual-arm роботов) — π0-dataset,&lt;br&gt;🔴 чтобы избежать дисбаланса, каждую task-robot-пару взвешивают с весом n⁰˒⁴³.&lt;br&gt;&lt;br&gt;Потом обучают все части модели: image-backbone, VLM, Action-Expert. А во время пост-трейнинга каждый Action-Expert файнтюнится на своём task-specific-датасете.&lt;br&gt;&lt;br&gt;В инференсе 10 шагов интегрирования (денойзинга). Он работает 73 мс на RTX 4090 (86 мс с задержкой сети). Для 20-герцовых роботов инференс делают каждые 0,8 секунды (после 16 шагов), для 50 Гц роботов — каждые 0,5 секунды (после 25 шагов). Для траекторий пробовали добавлять temporal ensembling, но результаты получились хуже чем open-loop.&lt;br&gt;&lt;br&gt;Авторы утверждают, что на момент публикации были в топе всех популярных бенчмарков.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Сергей Репьевский&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Openpilot 0.11 — первый робо-агент, обученный только на симуляциях</title><link>https://t.me/DriverNotFound/48</link><guid>https://t.me/DriverNotFound/48</guid><pubDate>Mon, 23 Mar 2026 11:04:07 +0000</pubDate><description>&lt;strong&gt;Openpilot 0.11 — первый робо-агент, обученный только на симуляциях&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Команда &lt;a rel="nofollow noopener noreferrer"&gt;Comma.ai&lt;/a&gt; опубликовала интересный &lt;a href="https://blog.comma.ai/011release/" rel="nofollow noopener noreferrer"&gt;пост&lt;/a&gt;, где утверждает, что впервые в истории индустрии выпустила на дороги робо-агент, полностью обученный в вымышленной нейросетями симуляции.&lt;br&gt;&lt;br&gt;Немного контекста: в &lt;a rel="nofollow noopener noreferrer"&gt;Comma.ai&lt;/a&gt; разрабатывают систему помощи водителю, совместимую со многими моделями автомобилей. Система работает на втором уровне автономности — умный лейн-кипинг в широком спектре сценариев. Эта задача гораздо проще, чем полностью автономное вождение, что позволяет &lt;a rel="nofollow noopener noreferrer"&gt;Comma.ai&lt;/a&gt; экспериментировать. &lt;br&gt;&lt;br&gt;В то время как Waymo и британская команда Wayve интегрируют модели мира в свои пайплайны, &lt;a rel="nofollow noopener noreferrer"&gt;Comma.ai&lt;/a&gt; идёт ещё дальше и отказывается от всего, кроме модели мира. Похожую идею предлагали учёные из Беркли в классической для робототехники статье &lt;a href="https://arxiv.org/abs/2206.14176" rel="nofollow noopener noreferrer"&gt;DayDreamer&lt;/a&gt; — интересно, что этот подход удалось адаптировать для автономного вождения.&lt;br&gt;&lt;br&gt;Вот что предлагают создатели Openpilot 0.11: &lt;br&gt;&lt;br&gt;&lt;strong&gt;Шаг 1.&lt;/strong&gt; Собрать 40 тысяч часов интересных видео, записанных флотом автономного транспорта и разбить их на сцены по 10 секунд с частотой 5 Гц.&lt;br&gt;&lt;br&gt;&lt;strong&gt;Шаг 2.&lt;/strong&gt; Обучить на этом датасете двухголовую модель мира: &lt;br&gt;&lt;br&gt;🔴 первая голова предсказывает по видеоконтексту следующее действие эго-агента,&lt;br&gt;🔴 вторая — генерирует следующий кадр по видеоконтексту и только что полученному следующему действию. &lt;br&gt;&lt;br&gt;Потом к контексту добавляется сгенерированный кадр, и процесс повторяется. &lt;br&gt;&lt;br&gt;Секретный ингредиент — подавать на вход модели не только две секунды истории, но и последнюю секунду в эпизоде. Так ей понадобится предсказывать только промежуточную траекторию — это значительно улучшает сходимость. В итоге получается достаточно реалистичный симулятор вождения, который генерирует следующий кадр по двум секундам видео и действию эго.&lt;br&gt;&lt;br&gt;&lt;strong&gt;Шаг 3. &lt;/strong&gt;Обучить в полученном симуляторе небольшую модель-водителя, которая должна сходиться в финальное состояние по одному лишь видео, не видя последний кадр. Щедро насыпать шум на всех стадиях для устойчивости.&lt;br&gt;&lt;br&gt;Openpilot 0.11 обучали on-policy — модель много едет по сгенерированной ей самой траектории, что выгодно отличает подход от обычного imitation learning.&lt;br&gt;&lt;br&gt;При этом награды или штрафы не задавались явно — по опыту reinforcement learning, конструирование наград иногда всё только портит. Авторы усвоили &lt;a href="http://www.incompleteideas.net/IncIdeas/BitterLesson.html" rel="nofollow noopener noreferrer"&gt;горький урок&lt;/a&gt;: для того чтобы всё сошлось, достаточно увеличить количество данных и размер модели.&lt;br&gt;&lt;br&gt;Единственная проблема, которая остаётся, — модель-водитель может научиться ломать симуляцию непредсказуемыми способами. Авторы утверждают, что это решается за счёт гипотезы большого мира: одновременно увеличивать и модель мира, и размеры водителя так, чтобы мир всегда был на порядок больше.&lt;br&gt;&lt;br&gt;В парадигме Level 2 получается хороший результат — агент держит линию и расстояние до других, объезжает запаркованные авто. Но вопрос, будет ли это скейлиться на более сложные задачи, остаётся открытым.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Кирилл Федянин&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>EMMA: End-to-End Multimodal Model for Autonomous Driving</title><link>https://t.me/DriverNotFound/46</link><guid>https://t.me/DriverNotFound/46</guid><pubDate>Wed, 18 Mar 2026 08:37:01 +0000</pubDate><description>&lt;strong&gt;EMMA: End-to-End Multimodal Model for Autonomous Driving&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://arxiv.org/abs/2410.23262v3" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt; об EMMA — end-to-end модели на основе LLM для задач автономного вождения. &lt;br&gt;&lt;br&gt;Верхнеуровнево архитектуру EMMA можно рассмотреть на схеме. В качестве LLM авторы используют Gemini. На входы модели подают изображения с камер (camera-only), историю ego и подсказки маршрутизатора. HD-карты не используются. &lt;br&gt;&lt;br&gt;Chain-of-thought начинается с описания сцены (scene description), потом модель выделяет участников движения (critical objects) и переходит к описанию их поведения (behavior description of critical objects). А в конце — принимает решение, как управлять транспортным средством (meta driving decision). &lt;br&gt;&lt;br&gt;Задачи перспешна (3D object detection, road graph estimation, scene understanding) решает Gemini — по изображениям с камер и соответствующим им промптам. Чтобы выбрать лучшую моду, модель считает попарные L2-расстояния между всеми траекториями. Топ-1 становится траектория с наименьшим средним L2.&lt;br&gt;&lt;br&gt;Из плюсов EMMA — неплохие значения ADE по сравнению с Wayformer и MotionLM. Но недостатков у модели много: &lt;br&gt;&lt;br&gt;🔴 повышенные вычислительные требования, &lt;br&gt;🔴 необходимость адаптировать сетку для обработки данных с лидаров, &lt;br&gt;🔴 сложности оценки модели в closed-loop, &lt;br&gt;🔴 небольшое число обрабатываемых изображений с камер.&lt;br&gt;&lt;br&gt;EMMA — один из примеров того, как можно применять LLM для задач автономного вождения, выбивая при этом неплохие значения метрик open-loop. В целом, end-to-end подходы набирают всю большую популярность. Думаю, дальнейшие исследования будут направлены на преодоление вычислительных ограничений и внедрение симуляции сенсоров в closed-loop.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Павел Лукьянов&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>GaussianLSS — Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting</title><link>https://t.me/DriverNotFound/45</link><guid>https://t.me/DriverNotFound/45</guid><pubDate>Wed, 11 Mar 2026 08:34:12 +0000</pubDate><description>&lt;strong&gt;GaussianLSS — Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Авторы сегодняшней &lt;a href="https://arxiv.org/abs/2504.01957" rel="nofollow noopener noreferrer"&gt;статьи&lt;/a&gt; предлагают &lt;a href="https://arxiv.org/abs/2504.01957" rel="nofollow noopener noreferrer"&gt;альтернативу LSS&lt;/a&gt;. Для этого от задачи классификации распределения глубины они переходят к регрессии параметров распределения (среднего и дисперсии). В результате точно так же предсказывается распределение, но лоссы считаются иначе.&lt;br&gt;&lt;br&gt;В &lt;a href="https://hcis-lab.github.io/" rel="nofollow noopener noreferrer"&gt;GaussianLSS&lt;/a&gt; вместо BEVPool или BEVPoolv2 используется классическая растеризация через diff-gaussian-rasterization (как в компьютерных играх: проецируем полигоны/гауссианы на камеру/BEV). Именно так авторы получают BEV-фичи для прикладных задач, при этом увеличивая FPS за счёт diff-gaussian-rasterization. По FPS они побеждают всех конкурентов на бенчмарках, не сильно теряя в качестве. &lt;br&gt;&lt;br&gt;Распределение вероятности по бинам предсказывается аналогично стандартному LSS. Но затем авторы считают среднее, поскольку знают, на каком расстоянии находится каждый бин, и дисперсию. Получаются точки в системе координат камеры (каждый пиксель — &lt;em&gt;u&lt;/em&gt;,&lt;em&gt;v&lt;/em&gt; и глубина для него — &lt;em&gt;d&lt;/em&gt;). Они перегоняются в мировые координаты через внешние и внутренние матрицы калибровок. &lt;br&gt;&lt;br&gt;Откуда вообще берётся распределение глубины? Как мы помним, в классическом LSS есть волшебный DepthNet, который предсказывает распределение глубины каждого пикселя и новые фичи. Авторы ещё немного модифицируют его так, чтобы получать ещё и opacity. Кажется, это сделано, потому что того требуют библиотеки для растеризации гауссиан. Но этот параметр можно как-нибудь использовать. Например, вы не хотите видеть бесполезное для ваших задач небо на BEV-фичах — благодаря opacity от него можно избавиться.&lt;br&gt;&lt;br&gt;Итого, авторы получают в 3D-пространстве точки, у каждой из которых есть координата, матрица ковариаций (на самом деле немного вырожденная, потому что гауссиана растянута вдоль «луча», проходящего через пиксель камеры), а кроме того — opacity и фичи. Дальше можно просто взять и отрендерить гауссианы. У оригинальной diff-gaussian-rasterization не очень хорошая лицензия, но есть и «народная» реализация этой &lt;a href="https://github.com/nerfstudio-project/gsplat" rel="nofollow noopener noreferrer"&gt;библиотеки&lt;/a&gt;.&lt;br&gt;&lt;br&gt;После растеризации получаются стандартные BEV-фичи, которые можно использовать привычным способом.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Денис Глазов&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Distilling Multi-modal Large Language Models for Autonomous Driving</title><link>https://t.me/DriverNotFound/44</link><guid>https://t.me/DriverNotFound/44</guid><pubDate>Tue, 03 Mar 2026 13:17:42 +0000</pubDate><description>&lt;strong&gt;Distilling Multi-modal Large Language Models for Autonomous Driving&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://arxiv.org/abs/2501.09757" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt; о попытке дистиллировать VLM (а именно LLaVA-1.5-7b) в планнер — в теории это улучшает понимание сцен и подчищает длинные хвосты.&lt;br&gt;&lt;br&gt;Ход мысли интересный:&lt;br&gt;&lt;br&gt;🔴 VLM по умолчанию знает о мире больше, чем стандартная планнерная модель.&lt;br&gt;🔴 Чем больше размер, тем лучше обработка нишевых ситуаций.&lt;br&gt;🔴 Дистилляция позволяет эффективно упаковать оба предыдущих преимущества в меньшую модель для деплоя.&lt;br&gt;&lt;br&gt;Для реализации авторы предлагают использовать предобученную для вождения end-to-end модель с промежуточными векторными представлениями. VLM, в свою очередь, умеет отвечать на вопросы, и у неё тоже есть выходные эмбеды — обе модели доучивают параллельно, накладывая ограничение: их векторные пространства должны быть похожи по KL. &lt;br&gt;&lt;br&gt;Но если обучать VLM только предсказывать движение, она схлопнется и утратит свои обширные знания о мире. Чтобы избежать этого, обучение обогащают несколькими типами задач. Во-первых, реконструкцией маскированных токенов-агентов как в BERT. Во-вторых, ответами на текстовые вопросы. Например, учат отвечать, какая на улице погода или что будет делать агент перед нашим ТС. Чем лучше понимание сцены, тем выразительнее выход модели — векторное пространство.&lt;br&gt;&lt;br&gt;Чтобы это всё работало, авторы адаптируют:&lt;br&gt;&lt;br&gt;🔴 &lt;strong&gt;Входы.&lt;/strong&gt; Учат Q-Former слои проекций для каждого типа данных (bev, карта, промпт). В итоге получается набор токенов, которые последовательно отдают в VLM.&lt;br&gt;🔴 &lt;strong&gt;Выходы.&lt;/strong&gt; Готовят отдельные головы, чтобы предсказывать положения эго и агентов, решать синтетические задания и отвечать на текстовый промпт текстом.&lt;br&gt;&lt;br&gt;Основную часть LLaVa авторы тренируют с помощью LORA: не трогают все веса, а только доучивают небольшие поправки к ним.&lt;br&gt;&lt;br&gt;Этот подход напоминает известный способ быстрой разработки мультимодальных моделей, когда векторные представления претренированной LLM и картиночного энкодера файнтюнят на задачах в духе visual QA.&lt;br&gt;&lt;br&gt;Попытку авторов дистиллировать VLM в планнер можно считать удачной: &lt;br&gt;&lt;br&gt;🔴 Количество коллизий уменьшилось вдвое по сравнению с исходной end-2-end моделью.&lt;br&gt;🔴 Дистилляция прошла успешно, модель фактически не проседает на тесте без VLM.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Кирилл Федянин&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Old but gold: Data Engine на примерах OWL и SAM [2/2]</title><link>https://t.me/DriverNotFound/43</link><guid>https://t.me/DriverNotFound/43</guid><pubDate>Wed, 25 Feb 2026 09:33:01 +0000</pubDate><description>&lt;strong&gt;Old but gold: Data Engine на примерах OWL и SAM [2/2]&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Продолжаем разбирать популярные подходы к построению foundation model. В &lt;a href="https://t.me/DriverNotFound/42" rel="nofollow noopener noreferrer"&gt;первой части&lt;/a&gt; обсудили SimCLR и DINO, сегодня в программе — Data Engine на примерах OWL и SAM. &lt;br&gt;&lt;br&gt;У текстового и картиночного доменов есть одна общая черта — переход от стандартных пайплайнов разметки к комбинированным. Это когда одну половину данных обрабатывает человек, а к другой подключается модель. &lt;br&gt;&lt;br&gt;Хороший пример human-in-the-loop pipeline: RLHF (reinforcement learning from human feedback) завёлся для текстового домена, но не работает для компьютерного зрения. Так для задач обработки изображений появился родственный пайплайн — model-in-the-loop. &lt;br&gt;&lt;br&gt;Работы &lt;a href="https://arxiv.org/abs/2306.09683" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;Scaling Open-Vocabulary Object Detection (OWLv2)&lt;/strong&gt;&lt;/a&gt; и &lt;a href="https://arxiv.org/abs/2304.02643" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;Segment Anything (SAM&lt;/strong&gt;&lt;/a&gt;) вышли в одно и то же время. Обе они посвящены схожему концепту Data Engine: &lt;br&gt;&lt;br&gt;1. Модель v1 обучают на датасете, собранном мануально. &lt;br&gt;2. Модель v1 участвует в псевдоразметке примеров. Разметку по необходимости корректирует человек — получается псевдодатасет.&lt;br&gt;3. На полученном псевдодатасете обучают модель v2. &lt;br&gt;4. Модель v2 порождает следующую волну разметки. Алгоритм можно повторять до тех пор, пока не получится модель с нужным качеством.&lt;br&gt;&lt;br&gt;Дообучение модели на собственных предсказаниях работает, если осмысленно подойти к отбору этих самых предиктов: добавлять в датасет только самые сложные, противоречивые примеры.&lt;br&gt;&lt;br&gt;Качественную задачу можно свести к количественной, если хорошо настроить конвейерную автоматику движка данных на каждом из этапов:&lt;br&gt;&lt;br&gt;🔴 обучение очередной итерации модели,&lt;br&gt;🔴 отбор сцен, сложных для новой версии модели,&lt;br&gt;🔴 псевдоразметка моделью,&lt;br&gt;🔴 корректировка человеком при необходимости.&lt;br&gt;&lt;br&gt;Пересмотреть подход к отбору данных пытаются во многих современных работах. Например, в &lt;a href="https://arxiv.org/abs/2304.07193" rel="nofollow noopener noreferrer"&gt;DINOv2&lt;/a&gt;, &lt;a href="https://arxiv.org/abs/2307.09288" rel="nofollow noopener noreferrer"&gt;Llama2&lt;/a&gt; и &lt;a href="https://arxiv.org/abs/2407.21783" rel="nofollow noopener noreferrer"&gt;Llama3&lt;/a&gt; много внимания уделяют дедупликации данных и улучшению разнообразия датасетов. А также ищут способы повысить эффективность обучения на выросшем корпусе данных.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Сергей Ким&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Old but gold: SimCLR и DINO [1/2]</title><link>https://t.me/DriverNotFound/42</link><guid>https://t.me/DriverNotFound/42</guid><pubDate>Mon, 16 Feb 2026 10:32:51 +0000</pubDate><description>&lt;strong&gt;Old but gold: SimCLR и DINO [1/2]&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня начнём разбирать популярные подходы к построению foundation model. Первым двум работам уже много лет, но их основные идеи до сих пор актуальны.&lt;br&gt;&lt;br&gt;&lt;a href="https://arxiv.org/abs/2002.05709" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;A Simple Framework for Contrastive Learning of Visual Representations (или просто SimCLR)&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;&lt;br&gt;Эта статья была очень популярна в своё время, хотя её идея совсем проста.&lt;br&gt;&lt;br&gt;Есть несколько изображений. Каждое из них аугментируют двумя способами, после чего подают на вход модели-эмбеддеру все аугментированные изображения. А дальше — обычный contrastive learning. Эмбеды, соответствующие аугментациям одного и того же изображения, приближают друг к другу, одновременно отдаляя от эмбедов прочих аугментированных изображений. Заранее размечать данные при таком подходе не нужно. &lt;br&gt;&lt;br&gt;Авторы рассуждают, какие именно рецепты аугментаций лучше подойдут для задачи self-distillation. Общий компонент рецептов  — разбиение аугментаций на сильные и слабые: одно аугментированное изображение из пары всегда будет испорчено сильнее, чем другое&lt;br&gt;&lt;br&gt;&lt;a href="https://arxiv.org/abs/2104.14294" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;DINO: Emerging Properties in Self-Supervised Vision Transformers &lt;/strong&gt;&lt;/a&gt;&lt;br&gt;&lt;br&gt;В этой статье используется метод self-distillation, для которого лейблы тоже не нужны. Моделью-учителем становится компиляция последних итераций ученика.&lt;br&gt;&lt;br&gt;Изображение, которое подаётся на вход учителю и ученику, аугментируют по-разному: &lt;br&gt;&lt;br&gt;🔴 Для модели-учителя готовят глобальные аугментации (для простоты можно считать, что они строятся по всей картинке целиком, без crop-and-resize).&lt;br&gt;🔴 Для ученика — локальные (кусочек изображения). &lt;br&gt;&lt;br&gt;Авторы не привязываются к конкретной архитектуре, но отмечают, что лучших результатов удаётся достигнуть с помощью &lt;a href="https://arxiv.org/abs/2010.11929" rel="nofollow noopener noreferrer"&gt;ViT&lt;/a&gt;. &lt;br&gt;&lt;br&gt;После выхода статьи метод DINO эволюционировал: в 2023 году появился &lt;a href="https://arxiv.org/abs/2304.07193" rel="nofollow noopener noreferrer"&gt;DINOv2&lt;/a&gt;, в 2025 — &lt;a href="https://arxiv.org/abs/2508.10104" rel="nofollow noopener noreferrer"&gt;DINOv3&lt;/a&gt;. Но изменения скорее инженерные: авторы работали над обогащением данных интересными примерами, дедупликацией, а также над ускорением и эффективизацией процесса обучения&lt;br&gt;&lt;br&gt;В следующей серии поговорим о semi-supervised подходах к построению foundation model.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Сергей Ким&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Learning Personalized Driving Styles via Reinforcement Learning from Human Feedback</title><link>https://t.me/DriverNotFound/41</link><guid>https://t.me/DriverNotFound/41</guid><pubDate>Mon, 09 Feb 2026 13:22:20 +0000</pubDate><description>&lt;strong&gt;Learning Personalized Driving Styles via Reinforcement Learning from Human Feedback&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Обычно планировщики для вождения обучаются на демонстрациях очень разных водителей. Одни предпочитают водить безопасно, другие — быстрее оказываться дома за счёт более рисковых манёвров. Типичная модель-планировщик выдаёт усреднённое вождение. В сегодняшней &lt;a href="https://arxiv.org/abs/2503.10434" rel="nofollow noopener noreferrer"&gt;статье&lt;/a&gt; авторы задаются вопросом, как сделать стиль вождения планировщика более выраженным. &lt;br&gt;&lt;br&gt;RLHF (reinforcement learning from human feedback) — тот самый алгоритм, который используют для алайнмента моделей под потребности людей в текстовых LLM, в том числе в оригинальном ChatGPT: людей просили людей ранжировать ответы, и по их оценкам нейросеть обучалась говорить приятное и полезное. &lt;br&gt;&lt;br&gt;Алгоритм редко применялся для решения задач автономного транспорта. В этой статье авторы тоже получили своего рода кашу из топора: фундаментальная идея подхода сохранилась, но реализацию каждой детали изменили. Тем не менее, ключевой результат всё равно получился интересным: &lt;br&gt;&lt;br&gt;🔴 Разделили стили вождения в сценах на шесть классов — от очень спокойного до очень агрессивного.&lt;br&gt;🔴 С помощью небольшого файнтюна научили модель менять стиль вождения.&lt;br&gt;&lt;br&gt;Исходная архитектура — мультимодальная диффузионка. Не самый типичный выбор для планировщика, но и не первое упоминание такого подхода: претрейн для всех стилей одинаковый, а диффузионка позволяет лучше сохранять всё распределение возможных траекторий. &lt;br&gt;&lt;br&gt;Самое интересное происходит во время дообучения. Если для претрейна используют данные о водителях с очень разными стилями вождения, то для файнтюна предлагают фильтровать сцены, оставляя только подходящие. Далее тренируют отдельную модель награды, которая должна присваивать траекториям одинакового стиля более высокий скор, если их сгенерировал человек, а не претрейн-модель. Эти награды помогают дообучить основную модель с GRPO на крошечном датасете: 5 тысяч сцен против полумиллиона в претрейне. То есть, авторы буквально активируют определённый стиль, в котором модель уже умеета водить.&lt;br&gt;&lt;br&gt;Метод отлично работает — на бенчмарке ощутимо меняется профиль скорости, метрики сильно растут в соответствии со стилем. На общих датасетах результаты ожидаемо немного проседают, но не драматично.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Кирилл Федянин&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>MADrive: Memory-Augmented Driving Scene Modeling</title><link>https://t.me/DriverNotFound/40</link><guid>https://t.me/DriverNotFound/40</guid><pubDate>Thu, 05 Feb 2026 12:49:08 +0000</pubDate><description>&lt;strong&gt;MADrive: Memory-Augmented Driving Scene Modeling&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём нашу &lt;a href="https://arxiv.org/abs/2506.21520v1" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt; о новом фреймворке для реконструкции дорожных сцен в задачах автономного вождения — MADrive. Он объединяет в себе две идеи:&lt;br&gt;&lt;br&gt;🔴 &lt;strong&gt;3D Gaussian Splatting (3DGS),&lt;/strong&gt; чтобы реконструировать объекты и сцены, а потом генерировать новые кадры (novel-view synthesis).&lt;br&gt;🔴 &lt;strong&gt;Внешний банк объектов. &lt;/strong&gt;Он помогает создавать реалистичные кадры с тех ракурсов, для которых не хватало исходных данных.&lt;br&gt;&lt;br&gt;&lt;strong&gt;Как это работает&lt;/strong&gt;&lt;br&gt;Мы декомпозируем сцену на статический фон (дорога, здания, деревья) и динамику (автомобили). Фон восстанавливаем c помощью 3DGS по данным с камер, уже известным положениям камер в проезде и лидарным 3D-точкам (как начальное приближение для положения сплатов).&lt;br&gt;&lt;br&gt;Для эффективной работы с автомобилями мы предварительно собрали датасет &lt;a href="https://huggingface.co/datasets/yandex/mad-cars" rel="nofollow noopener noreferrer"&gt;MAD-Cars&lt;/a&gt;. В него вошли около 70 тысяч 360-градусных видеозаписей автомобилей разных моделей и цветов. &lt;br&gt;&lt;br&gt;Чтобы реконструировать автомобили при обработке проезда:&lt;br&gt;&lt;br&gt;1. Выделяем каждый автомобиль на сцене в 3D-бокс.&lt;br&gt;2. Получаем 2D-кроп по проекции бокса на кадр.&lt;br&gt;3. Считаем эмбеддинг SigLIP2 для кропа и уточняем цвет машины с помощью Qwen2.5-VL.&lt;br&gt;4. Находим похожую машину в MAD-Cars по эмбеддингу и цвету (косинусное сходство).&lt;br&gt;5. Для найденного автомобиля строим новую 3D-модель c помощью 2D Gaussian Splats. Попутно явно разделяем цвет автомобиля и влияние освещения, при котором записывали 360-градусное видео для MAD-Cars.&lt;br&gt;6. Переосвещаем восстановленную 3D-модель автомобиля с учётом освещения на реконструируемой сцене. Вставляем модель в сцену на место реальной машины.&lt;br&gt;&lt;br&gt;&lt;strong&gt;Зачем это нужно&lt;/strong&gt;&lt;br&gt;MADrive позволяет достоверно генерировать синтетические сенсорные данные для новых дорожных сценариев. MAD-Cars полезен для многих задач 3D Computer Vision — от реконструкции до генерации сцен. &lt;br&gt;&lt;br&gt;Познакомиться с MADrive и MAD-Cars можно на &lt;a href="https://yandex-research.github.io/madrive/" rel="nofollow noopener noreferrer"&gt;странице проекта&lt;/a&gt;, а узнать больше об их создании — &lt;a href="https://habr.com/ru/companies/yandex/articles/991000/" rel="nofollow noopener noreferrer"&gt;на Хабре&lt;/a&gt;.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Кирилл Струминский&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>DINO-MOT: 3D Multi-Object Tracking With Visual Foundation Model for Pedestrian Re-Identification Using Visual Memory Mec</title><link>https://t.me/DriverNotFound/39</link><guid>https://t.me/DriverNotFound/39</guid><pubDate>Mon, 02 Feb 2026 11:12:03 +0000</pubDate><description>&lt;strong&gt;DINO-MOT: 3D Multi-Object Tracking With Visual Foundation Model for Pedestrian Re-Identification Using Visual Memory Mechanism&lt;/strong&gt;&lt;br&gt;&lt;br&gt;В этом &lt;a href="https://www.researchgate.net/publication/385916387_DINO-MOT_3D_Multi-Object_Tracking_with_Visual_Foundation_Model_for_Pedestrian_Re-Identification_using_Visual_Memory_Mechanism" rel="nofollow noopener noreferrer"&gt;исследовании&lt;/a&gt; ищут решение задачи 3D Multi-Object Tracking (3D-MOT) в контексте автономного вождения. Акцент делают на том, как повысить точность отслеживания пешеходов. &lt;br&gt;&lt;br&gt;Фреймворк DINO-MOT, по мнению авторов, расширяет классический подход Tracking-by-Detection за счёт интеграции DINOv2. Ключевая идея — использование визуальной информации с камер для повторной идентификации (Re-Identification) пешеходов. Это позволяет снизить количество ID switches до 12,3%. &lt;br&gt;&lt;br&gt;3D-детекции пешеходов проецируются на 2D-изображения, из которых извлекают области интереса (кропы). Эти изображения обрабатывают энкодером DINOv2: получают признаковые эмбеддинги и сравнивают их с визуальной памятью (Lookup Table) с помощью косинусной схожести для коррекции треков. &lt;br&gt;&lt;br&gt;Прогноз движения на основе расширенного фильтра Калмана, двухэтапная ассоциация с обобщённым IoU и другие элементы фреймворка обеспечивают робастность трекинга для различных классов объектов.&lt;br&gt;&lt;br&gt;На момент публикации DINO-MOT лидирует на бенчмарк-наборе nuScenes: устанавливает новое SoTA-значение по метрике AMOTA — 76,3%.&lt;br&gt;&lt;br&gt;По результатам абляционных исследований, интеграция DINOv2: &lt;br&gt;&lt;br&gt;🔴 Позволяет стабильно снижать ID switches для пешеходов, если использовать различные детекторы. &lt;br&gt;🔴 Не оказывает негативного влияния на общую точность трекинга. &lt;br&gt;&lt;br&gt;Замеры производительности указывают на потенциальную применимость подхода в реальном времени, что делает его практичным для автономных систем.&lt;br&gt;&lt;br&gt;Разбор подготовила ❣️ Ольга Ротова&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences</title><link>https://t.me/DriverNotFound/38</link><guid>https://t.me/DriverNotFound/38</guid><pubDate>Mon, 26 Jan 2026 12:01:13 +0000</pubDate><description>&lt;strong&gt;MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://arxiv.org/abs/2306.03206" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt; на стыке perception и BL (behavior layer). Объединив очень разные элементы восприятия (perception) и предсказания (prediction) робота, команда Waymo улучшила обнаружение 3D-объектов для детекторов, которые работают с облаками точек и их последовательностями.&lt;br&gt;&lt;br&gt;В чём проблема? Современные системы плохо справляются с обнаружением перекрытых и удалённых объектов. Обработка множества лидарных кадров требует огромных ресурсов. Можно было бы фьюзить облака точек на уровне объектов,  потому что это дешевле с точки зрения вычислений. Но тогда возникают проблемы с выравниванием (alignment). &lt;br&gt;&lt;br&gt;Система MoDAR вместо прямой обработки всех кадров использует прогнозирование движения как дополнительную модальность. Алгоритм создаёт виртуальные точки с информацией о предсказанных позициях объектов из прошлых и будущих кадров. &lt;br&gt;&lt;br&gt;Способ, который придумали авторы, помогает прокачать качество обработки облаков. На основе &lt;strong&gt;предсказаний траекторий&lt;/strong&gt; из BL они создали для детектора виртуальную модальность под названием &lt;strong&gt;MoDAR&lt;/strong&gt; (по аналогии с LiDAR). &lt;br&gt;&lt;br&gt;Точки MoDAR — это центры объектов по предсказаниям из прошлого в настоящее (онлайн) и из будущего в настоящее (офлайн). Они образуют новую легковесную модальность: число точек, полученных из временного контекста 18 секунд (9 из прошлого + 9 из будущего) меньше, чем в одном лидарном фрейме. &lt;br&gt;&lt;br&gt;Полный флоу решения — на схеме. Авторы используют два 3D-детектора: &lt;a href="https://t.me/DriverNotFound/30" rel="nofollow noopener noreferrer"&gt;CenterPoint&lt;/a&gt; и SWFormer. В качестве модели предсказания движения выбрали MultiPath++, обученный на Waymo Open Motion Dataset.&lt;br&gt;&lt;br&gt;На 3-frame SWFormer + 18 секунд MoDAR удалось существенно повысить качество (mAPH) в сложных кейсах (L2-срез на Waymo Open Dataset). При этом практически SoTA-результат не требует значительных дополнительных вычислительных затрат. &lt;br&gt;&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning</title><link>https://t.me/DriverNotFound/37</link><guid>https://t.me/DriverNotFound/37</guid><pubDate>Mon, 19 Jan 2026 12:03:15 +0000</pubDate><description>&lt;strong&gt;TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning&lt;br&gt;&lt;/strong&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://arxiv.org/abs/2509.13579" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt;, в которой авторы предлагают использовать поиск монте-карло по дереву (Monte-Carlo Tree Search, MCTS) для задачи планирования. Как и в обычном MCTS, сначала генерируется множество траекторий, а затем на каждом шаге поддерживается баланс между перспективными направлениями и теми, которые ещё не исследованы.&lt;br&gt;&lt;br&gt;Перспективность направления определяется функцией награды, учитывающей несколько факторов:&lt;br&gt;&lt;br&gt;🔴 штраф за рывки (для комфорта),&lt;br&gt;🔴 штраф за столкновения с машинами и людьми,&lt;br&gt;🔴 адекватное расстояние до агента спереди,&lt;br&gt;🔴 следование на скорости около максимальной разрешённой,&lt;br&gt;🔴 остановки в местах, где это необходимо,&lt;br&gt;🔴 опционально — предобученная PPO-политика и её функция ценности V.&lt;br&gt;&lt;br&gt;Исследователи генерируют всего 400 траекторий и выбирают из них 100 наиболее перспективных кандидатов по награде. Отобранные траектории удовлетворяют формальным требованиям, однако не все из них применимы в реальности. &lt;br&gt;&lt;br&gt;Для решения этой проблемы авторы обучают отдельную модель на inverse reinforcement learning. Её задача — дать скалярное значение z, которое позволит из представленных траекторий выбрать наиболее «человекоподобную». При обучении используется таргет &lt;em&gt;exp(z_i)&lt;/em&gt;&lt;em&gt;/sum_z&lt;/em&gt;&lt;em&gt;(exp(z))&lt;/em&gt; — подходящая траектория определяется по подобию в L2-норме. В итоге из 100 траекторий-кандидатов остаётся только одна, лучшая по IRL-оценке. Она удовлетворяет формальным критериям и похожа на то, как водил бы человек.&lt;br&gt;&lt;br&gt;Этот метод отличается от обычного подхода, где сначала нейросеть генерирует несколько траекторий, а потом их проверяют на формальную безопасность. Это свежий взгляд, но, к сожалению, остаётся неочевидным, насколько хорошо он масштабируется: подход тестировался как адаптивный круиз-контроль, и модель предсказывала только продольные рывки. С этим ограничением мы имеем всего 5 возможных действий против, например, 169 в другом популярном методе, MotionLM. Количество возможных деревьев в таком случае астрономически меньше — 390 тысяч против 600 квадриллионов.&lt;br&gt;&lt;br&gt;Что касается результатов работы модели, то в категории адаптивного круиз-контроля на бенчмарке nuPlan TreeIRL показала себя весьма хорошо. Модель также применялась на дорогах общего пользования и смогла проехать 400 км без вмешательств.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Кирилл Федянин&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Топ статей 2025: выбор команды 404 driver not found</title><link>https://t.me/DriverNotFound/36</link><guid>https://t.me/DriverNotFound/36</guid><pubDate>Mon, 12 Jan 2026 11:53:54 +0000</pubDate><description>&lt;strong&gt;Топ статей 2025: выбор команды &lt;/strong&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;404 driver not found&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;&lt;br&gt;Пока все (и мы тоже) вспоминают, как работать после праздников, предлагаем почитать наши любимые разборы из прошлого года. &lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/30" rel="nofollow noopener noreferrer"&gt;CenterPoint и TransFusion: обзор двух подходов к задаче детекции&lt;/a&gt;&lt;br&gt;Разбор сразу двух статей о SoTA-способах 3D-детекции.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/4" rel="nofollow noopener noreferrer"&gt;RefAV: Towards Planning-Centric Scenario Mining&lt;/a&gt;&lt;br&gt;Статья о том, как навайбкодить фильтры и получить «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/7" rel="nofollow noopener noreferrer"&gt;Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations&lt;/a&gt;&lt;br&gt;Новый подход к дообучению traffic prediction-моделей без ручной разметки.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/16" rel="nofollow noopener noreferrer"&gt;DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds&lt;/a&gt;&lt;br&gt;Фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах &lt;a href="https://waymo.com/open/challenges/2020/3d-detection/" rel="nofollow noopener noreferrer"&gt;WOD 3D Detection&lt;/a&gt; и &lt;a href="https://waymo.com/open/challenges/2020/3d-tracking/" rel="nofollow noopener noreferrer"&gt;WOD 3D Tracking&lt;/a&gt;.&lt;br&gt;&lt;br&gt;А если вдруг пропустили, вот &lt;a href="https://t.me/DriverNotFound/35" rel="nofollow noopener noreferrer"&gt;топ-5 2025, который сформировали вы&lt;/a&gt;.&lt;br&gt;&lt;br&gt;В 2026 продолжим разбирать научные статьи, делиться интересными находками и обсуждать горячие вопросы индустрии — не переключайтесь!&lt;br&gt;&lt;br&gt;Продолжает делиться с вами интересным ❣️ команда&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Топ-5 статей 2025: выбор читателей 404 driver not found</title><link>https://t.me/DriverNotFound/35</link><guid>https://t.me/DriverNotFound/35</guid><pubDate>Mon, 29 Dec 2025 11:53:29 +0000</pubDate><description>&lt;strong&gt;Топ-5 статей 2025: выбор читателей &lt;/strong&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;404 driver not found&lt;/strong&gt;&lt;/a&gt;&lt;strong&gt;&lt;br&gt;&lt;/strong&gt;&lt;br&gt;Наш канал появился совсем недавно, но подвести промежуточные итоги уже можно. &lt;br&gt;&lt;br&gt;Спасибо, что были с нами в этом году, читали и лайкали! Собрали обзоры, которые понравились вам больше всего: сохраняйте себе и делитесь с друзьями.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/12" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;О perception много статей с графиками и кодом, но лишь единицы попадают в топ &lt;a href="https://www.nuscenes.org/object-detection?externalData=all&amp;amp;mapData=all&amp;amp;modalities=Any" rel="nofollow noopener noreferrer"&gt;лидерборда nuScenes&lt;/a&gt; — главного датасета для автономного вождения. Именно там нашлась эта статья. &lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/13" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;UnO + GASP&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;Разбор двух похожих и крайне интересных статей на довольно редкую в сфере автономного транспорта тему претрейна.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/15" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;Sparse4D v3: Advancing End-to-End 3D Detection and Tracking&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;Обсудили ещё одну редкую тему: End-to-End 3D Detection and Tracking, а именно — детектор Sparse4Dv3 с хорошими метриками на &lt;a href="https://www.nuscenes.org/object-detection?externalData=all&amp;amp;mapData=all&amp;amp;modalities=Any" rel="nofollow noopener noreferrer"&gt;nuScenes&lt;/a&gt;.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/11" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;Scaling Laws of Motion Forecasting and Planning&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;Waymo, подразделение беспилотных автомобилей Google, выпустило техрепорт о том, как масштабируются модели. &lt;a href="https://arxiv.org/pdf/2203.15556" rel="nofollow noopener noreferrer"&gt;Похожая статья об LLM&lt;/a&gt; сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.&lt;br&gt;&lt;br&gt;&lt;a href="https://t.me/DriverNotFound/14" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;Статья о том, как ребята из NVIDIA заняли первое место в лидерборде &lt;a href="https://waymo.com/research/the-waymo-open-sim-agents-challenge/" rel="nofollow noopener noreferrer"&gt;WOSAC&lt;/a&gt; от Waymo. Обсуждали цикл SFT, а не способы токенизации, слои архитектуры или внутренний cross attention.&lt;br&gt;&lt;br&gt;А какие статьи запомнились в этом году вам? Расскажите в комментариях.&lt;br&gt; &lt;br&gt;С наступающим! После праздников мы вернёмся с новыми разборами. До встречи в новом году!&lt;br&gt;&lt;br&gt;Сформировали этот топ ❤️ уважаемые подписчики&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Self-Supervised Sparse Sensor Fusion for Long Range Perception</title><link>https://t.me/DriverNotFound/34</link><guid>https://t.me/DriverNotFound/34</guid><pubDate>Thu, 25 Dec 2025 08:27:01 +0000</pubDate><description>&lt;strong&gt;Self-Supervised Sparse Sensor Fusion for Long Range Perception&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Авторы этой &lt;a href="https://arxiv.org/abs/2508.13995" rel="nofollow noopener noreferrer"&gt;статьи&lt;/a&gt; предлагают новый подход к long-range perception: sparse-voxel-фьюжн камер и лидара с временным контекстом и SSL-предобучением. Всё это и собственный long-range-датасет позволили решению претендовать на SoTA на бенчмарках. &lt;br&gt;&lt;br&gt;Ключевые фичи:&lt;br&gt;&lt;br&gt;🔴 &lt;em&gt;Sparse voxel representation &lt;/em&gt;вместо BEV помогает скейлиться на дальние расстояния.&lt;br&gt;🔴 &lt;em&gt;Camera–LiDAR-фьюжн. &lt;/em&gt;Изображения с камер обрабатываются по схеме RGBD → Vision Mamba (ViM) → depth-module (RNN уточняет глубину) → sparse voxel lifting.&lt;br&gt;🔴 &lt;em&gt;Temporal fusion (временной контекст).&lt;/em&gt; Главная фишка — sparse window attention: делают аттеншн для вокселя с предыдущего кадра к его соседям в кубике 3×3×3.&lt;br&gt;🔴 &lt;em&gt;Self-supervised pretraining (UnO-like), &lt;/em&gt;чтобы сэкономить на разметке.&lt;br&gt;&lt;br&gt;Архитектура решения — на схеме выше. Камерные фичи энкодят отдельно, поднимают в 3D, а затем фьюзят с лидарными. Потом добавляют временной контекст, делают аттеншн и передают в две головы, которые предсказывают occupancy и velocity. &lt;br&gt;&lt;br&gt;Данных мало — чтобы получить нормальную разметку, нужно гораздо больше. Поэтому авторы собрали собственный датасет из информации о поездках на грузовике с 5 синхронными камерами и 4D-лидаром Aeva (radial speed, 400 м, 10 Гц). Радара не было. Так удалось собрать 60 тысяч кадров, из которых 35 тысяч разметили для детекции. &lt;br&gt;&lt;br&gt;Image encoder и depth-module обучали вместе. Потом — reconstruction, depth supervision и дистилляционные лоссы фичей. Occupancy- и velocity-голову претрейнили SSL. В конце обучались распознавать объекты. &lt;br&gt;&lt;br&gt;Результаты впечатляют: &lt;br&gt;&lt;br&gt;🔴 Depth Prediction: −27% MAE и −25% MSE vs SoTA при инференсе в 0,064 с на памяти 1,3 ГБ.&lt;br&gt;🔴 Object Detection: +26.6% к SoTA SAMFusion.&lt;br&gt;&lt;br&gt;В целом, работа подтверждает: sparse-представления в сочетании с временным контекстом и SSL-предобучением дают заметный выигрыш именно в long-range-сценариях, где BEV-подходы быстро упираются в вычисления и память. Метод выглядит особенно убедительно как практичный компромисс между качеством, дальностью и стоимостью разметки.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Владислав Поляков &lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>BEVCalib: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations</title><link>https://t.me/DriverNotFound/32</link><guid>https://t.me/DriverNotFound/32</guid><pubDate>Tue, 16 Dec 2025 10:31:41 +0000</pubDate><description>&lt;strong&gt;BEVCalib: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Авторы сегодняшней &lt;a href="https://arxiv.org/abs/2506.02587" rel="nofollow noopener noreferrer"&gt;статьи&lt;/a&gt; утверждают, что создали первый targetless-подход с BEV. Опираясь на идею о том, что каждый BEV-объект соответствует определённой области в пространстве, они геометрически упростили маппинг таких объектов из разных модальностей. &lt;br&gt;&lt;br&gt;Знакомьтесь, BEVСalib — модель для калибровок экстринсиков cam2lidar на основе BEVFusion. &lt;br&gt;&lt;br&gt;Её архитектура (на первой схеме) почти полностью повторяет BEVFusion: изображение и облако точек попадают каждое в свой энкодер, проходят Fuser и FPN. Для предсказания матрицы калибровок результат попадает в Geometry-Guided BEV Decoder (или просто GGBD). &lt;br&gt;&lt;br&gt;GGBD — разработка авторов. Она состоит из двух модулей: &lt;br&gt; &lt;br&gt;🔴 Feature Selector — запоминает координаты, куда спроецировались камерные фичи.&lt;br&gt;🔴 Refinement Module — применяет self-attention к фичам по запомненным координатам. &lt;br&gt;&lt;br&gt;После нескольких SA-блоков используется Global Average Pooling и выход из векторов перемещения и кватерниона поворота. Кватернион поворота затем преобразуют в матрицу трансформации и объединяют с вектором перемещения. Рассмотреть процессы подробнее можно на второй схеме.&lt;br&gt;&lt;br&gt;Лоссы стандартные: &lt;br&gt;&lt;br&gt;🔴 Geodesic Loss на кватернион + регуляризация на нормальность вектора.&lt;br&gt;🔴 Smooth-L1 Loss для вектора перемещения.&lt;br&gt;🔴 Reprojection Loss на координаты облаков точек (по сути, L2).&lt;br&gt;&lt;br&gt;BEVСalib — SoTA. Результаты работы модели обгоняют по качеству такие архитектуры, как Regnet, LCCNet, CalibAnything и Koide3. На датасетах KITTI, NuScenes и собственном наборе авторов CALIBD ошибка составляет ±0,1 угла для roll, pitch и yaw вне зависимости от раскалибровки.&lt;br&gt;&lt;br&gt;Модель опенсорсная: попробовать её и посмотреть демо можно на &lt;a href="https://cisl.ucr.edu/BEVCalib/" rel="nofollow noopener noreferrer"&gt;официальном сайте&lt;/a&gt;.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Антон Семенюта&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>CenterPoint и TransFusion: обзор двух подходов к задаче детекции</title><link>https://t.me/DriverNotFound/30</link><guid>https://t.me/DriverNotFound/30</guid><pubDate>Fri, 12 Dec 2025 09:33:32 +0000</pubDate><description>&lt;strong&gt;CenterPoint и TransFusion: обзор двух подходов к задаче детекции&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём сразу две статьи о SoTA-способах предсказывать положения объектов. &lt;br&gt;&lt;br&gt;&lt;a href="https://arxiv.org/abs/2006.11275" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;Center-based 3D Object Detection and Tracking&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;&lt;br&gt;Если коротко, это Objects as Points. Авторы решают задачу детекции на облаках точек с помощью CenterNet на BEV-фичах.&lt;br&gt;&lt;br&gt;CenterNet — 2D-object-детектор. Вместо поправок к anchor-боксам он предсказывает center-боксы (их размеры, глубины, ориентацию). &lt;br&gt;&lt;br&gt;В CenterPoint авторы добавили стадию рефайнмента предсказанных боксов на основе BEV-фичей, взятых из середин граней боксов CenterNet. &lt;br&gt;&lt;br&gt;Архитектура (на первой схеме) состоит из трёх основных этапов: &lt;br&gt;&lt;br&gt;1. 3D-Backbone выделяет фичи из облака точек.&lt;br&gt;2. СenterNet помогает получить из фичей 3D-боксы и их центры.&lt;br&gt;3. На стадии рефайнмента для каждого бокса по расположению достают и стакают 5 BEV-фичей. Перцептрон рассчитывает поправки к боксу и уверенность в нём (score) — это помогает уточнить предсказания.&lt;br&gt;&lt;br&gt;Center-based-подходы лучше работают на классах объектов с особенностями — например, с необычными размерами. По результатам на nuScenes, авторы считают свой подход SoTA.&lt;br&gt;&lt;br&gt;&lt;a href="https://arxiv.org/abs/2203.11496" rel="nofollow noopener noreferrer"&gt;&lt;strong&gt;TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers&lt;/strong&gt;&lt;/a&gt;&lt;br&gt;&lt;br&gt;В этой статье авторы решают задачу детекции с помощью данных камеры и лидара: мягко объединяют их с помощью cross-attention. &lt;br&gt;&lt;br&gt;В основе TransFusion — DETR-like-подход с инициализацией object queries в локальных максимумах хитмапа, предсказанного по BEV-фичам. &lt;br&gt;&lt;br&gt;DETR преобразует фичи объекта в вектора, добавляет positional encoding и подаёт результат на вход трансформер-декодера — так получаются вектора фич, которые знакомы с исходной картинкой. &lt;br&gt;&lt;br&gt;Голова-детектор (вторая схема) состоит из двух последовательных трансформеров-декодеров:&lt;br&gt;&lt;br&gt;🔴 Первый осуществляет cross-attention из object queries в BEV-фичи. &lt;br&gt;🔴 Второй связывает полученные фичи с картинками с помощью spatially modulated cross-attention (SMCA).&lt;br&gt;&lt;br&gt;Механизм SMCA между object queries и данными с камер помогает модели лучше отслеживать связанные области изображения. &lt;br&gt;&lt;br&gt;TransFusion также показал SoTA-результаты на nuScenes. Авторы предлагают использовать этот подход для ускорения и упрощения задач 3D-сегментации.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Владимир Филипенко&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Суперинтеллект и обучение в задачах робототехники: что обсуждают на NeurIPS 2025</title><link>https://t.me/DriverNotFound/23</link><guid>https://t.me/DriverNotFound/23</guid><pubDate>Fri, 05 Dec 2025 13:34:39 +0000</pubDate><description>&lt;strong&gt;Суперинтеллект и обучение в задачах робототехники: что обсуждают на NeurIPS 2025&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале &lt;a href="https://t.me/MLunderhood/230" rel="nofollow noopener noreferrer"&gt;ML Underhood.&lt;/a&gt; А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки. &lt;br&gt;&lt;br&gt;Спойлер: речь пойдëт об обучении с подкреплением. &lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;strong&gt;The OaK Architecture: A Vision of SuperIntellegence from Experience&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Выступление Rich Sutton о том, каким он видит суперинтеллект. &lt;br&gt;&lt;br&gt;Первое, на что он обращает внимание, — авторы большинства работ вносят во множество доменов знания, которые помогают решить конкретные задачи. Но одновременно с этим их вклад начинает влиять на результаты работы моделей и делает их неоптимальными. &lt;br&gt;&lt;br&gt;У суперинтеллекта, по его мнению, должно быть понятное представление о награде. Такое, чтобы у него появились все верхнеуровневые признаки, необходимые для формулирования подзадач, решение которых будет приближать награду. &lt;br&gt;&lt;br&gt;При появлении новых признаков должна разрастаться и transition model (пространство действий которые возможно совершить). &lt;br&gt;&lt;br&gt;&lt;strong&gt;PRINT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Syntesis from Foundation Models&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Ребята сделали схему для обучения моделей, которые управляют роботом. В итоге смогли обогнать методы на моделях с одной из модальностей.&lt;br&gt;&lt;br&gt;Сконструировать нормальный реворд сложно, а ручная разметка — очень дорогая. Чтобы обойти это, авторы попробовали обучаться на предпочтениях, сгенерированных моделями. &lt;br&gt;&lt;br&gt;Несмотря на то, что текстовые модели любят галлюционировать, а VLM плохо сохраняют временные взаимодействия, их комбинация работает сильно лучше — они компенсируют недостатки друг друга. &lt;br&gt;&lt;br&gt;В начале обучения авторы обходятся траекториями, сгенерированными LLM: генерируют, перемешивают и просят LLM выбрать лучшую. А дальше объединяют вердикты LLM и VLM.&lt;br&gt;&lt;br&gt;Ещë один трюк — включение в лосс причинности. Так за счëт модели получается найти лучшие варианты и вознаградить их. &lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;#YaNeurIPS25&lt;br&gt;&lt;br&gt;﻿Заметил на конференции ❣️ Дмитрий Быков&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>NeurIPS 2025: начало</title><link>https://t.me/DriverNotFound/17</link><guid>https://t.me/DriverNotFound/17</guid><pubDate>Mon, 01 Dec 2025 15:14:00 +0000</pubDate><description>&lt;strong&gt;NeurIPS 2025: начало&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико. &lt;br&gt;&lt;br&gt;Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в &lt;a href="https://t.me/MLunderhood/202" rel="nofollow noopener noreferrer"&gt;ML Underhood&lt;/a&gt;. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;Главный мотив первого дня — безопасность и масштабируемость автономного транспорта. В отличие от ограниченной тестовой среды, в реальном мире, бесконечное количество ситуаций, когда система должна вести себя безопасно по отношению к другим и самой себе. Обсуждали, как эффективно тестировать автономные системы с учётом этого. &lt;br&gt;&lt;br&gt;Сначала были доклады про построение сценариев и их реализацию. TL;DR: тестировать что-либо на реальных задачах слишком долго и дорого, лучше использовать симуляторы, а потом приближать их данные к реальности с помощью генеративных моделей&lt;br&gt;&lt;br&gt;Далее был простой, но интересный рассказ Sergey Levine из UC Berkley про историю развития VLA от LLM и VLM до будущего в построении foundation-моделей.&lt;br&gt;&lt;br&gt;Самую интересную работу, на мой взгляд, привезла команда Wayve, которая делает автономный транспорт. &lt;br&gt;&lt;br&gt;Во-первых, они показали свою автономную систему. Она обучается end-to-end, на вход принимает сенсоры, на выходе возвращает всё для управления, также есть контур безопасности. Обучив систему на данных и&lt;br&gt;з UK, ребята проверили её на 500 других городах и показали, что модель стала лучше адаптироваться к дорожным и географическим условиям.&lt;br&gt;&lt;br&gt;Во-вторых, ребята привезли сразу две своих foundation-модели: &lt;br&gt;&lt;br&gt;&lt;a href="https://arxiv.org/abs/2503.20523" rel="nofollow noopener noreferrer"&gt;GAIA-2&lt;/a&gt; — модель генерации реального мира, которая на основе начальных данных с камер и условий (положения и поведение агентов и самого транспортного средства, состояние окружения) умеет фотореалистично предсказывать изображения с камер. &lt;br&gt;&lt;br&gt;Модель состоит из двух частей: токенизатора для перевода видео в латентное пространство и модели мира для генерации будущего латентного состояния мира.&lt;br&gt;&lt;br&gt;Вторая модель — &lt;a href="https://wayve.ai/thinking/lingo-2-driving-with-language/" rel="nofollow noopener noreferrer"&gt;LINGO-2&lt;/a&gt; — VLA. Она добавила в систему общие человеческие знания и размышления, а также &lt;br&gt;возможность описывать действия.&lt;br&gt;&lt;br&gt;Комбинация этих моделей:&lt;br&gt;&lt;br&gt;🔴 E2E — помогает системе быть более устойчивой и лучше обобщаться, но требует много данных. &lt;br&gt;🔴 Модель симуляции мира — позволяет проводить сколь угодно разнообразные тесты и проверять безопасность системы.&lt;br&gt;🔴 VLA — делает систему еще более устойчивой и обобщаемой.&lt;br&gt;&lt;br&gt;У себя на &lt;a href="https://wayve.ai/technology/" rel="nofollow noopener noreferrer"&gt;сайте&lt;/a&gt; ребята пишут про L4-уровень автономности, также там много интересных видео. И хотя они ещё не вышли на уровень массовой масштабируемости, в их машине вполне ездит Huang — думаю, можно считать их разработки будущим отрасли.&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;#YaNeurIPS25&lt;br&gt;&lt;br&gt;Выбрал самое интересное из событий первого дня ❣️ Владислав Фахретдинов&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds</title><link>https://t.me/DriverNotFound/16</link><guid>https://t.me/DriverNotFound/16</guid><pubDate>Mon, 24 Nov 2025 11:10:49 +0000</pubDate><description>&lt;strong&gt;DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Авторы этой &lt;a href="https://arxiv.org/abs/2306.06023" rel="nofollow noopener noreferrer"&gt;статьи&lt;/a&gt; утверждают, что их алгоритм работает лучше, чем ручная разметка, если оценивать по методике &lt;a href="https://arxiv.org/abs/2103.05073" rel="nofollow noopener noreferrer"&gt;3DAL&lt;/a&gt; от Waymo. Знакомьтесь, DetZero — фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах &lt;a href="https://waymo.com/open/challenges/2020/3d-detection/" rel="nofollow noopener noreferrer"&gt;WOD 3D Detection&lt;/a&gt; и &lt;a href="https://waymo.com/open/challenges/2020/3d-tracking/" rel="nofollow noopener noreferrer"&gt;WOD 3D Tracking&lt;/a&gt;. &lt;br&gt;&lt;br&gt;В основе фреймворка — двухпроходный алгоритм. Общий пайплайн работы с данными выглядит так: &lt;br&gt;&lt;br&gt;🔴 Мультикадровый детектор получает на вход N кадров с облаками точек.&lt;br&gt;🔴 &lt;strong&gt;Первый проход:&lt;/strong&gt; офлайн-трекер генерирует точные и полные треки объектов с помощью модификации &lt;a href="https://arxiv.org/abs/2006.11275" rel="nofollow noopener noreferrer"&gt;CenterPoint&lt;/a&gt;. В DetZero учитывают плотность точек и используют не один, а пять соседних кадров. А ещё —  добавили TTA и ансамбль однотипных моделей. &lt;br&gt;🔴 &lt;strong&gt;Второй проход: &lt;/strong&gt;пообъектное рассмотрение треков. Для треков каждого объекта готовят собственные последовательности лидарных точек — используют только те точки, которые заметаются боксами трека. Боксы немного расширяют, чтобы замести окрестность побольше. &lt;br&gt;🔴 Треки улучшают с помощью трёх одновременных действий: уточнение геометрических размеров объекта, сглаживание траектории движения и перерасчёт уверенности. &lt;br&gt;🔴 Все треки собирают в единую картинку и превращают в лейблы. Точки, связанные с объектом, переводят в систему координат bounding box. После этого происходит geometry (GRM), position (PRM) и confidence (CRM) уточнение при помощи обучаемых моделей на основе &lt;a href="https://arxiv.org/abs/1612.00593" rel="nofollow noopener noreferrer"&gt;PointNet.&lt;/a&gt;&lt;br&gt;&lt;br&gt;В 2023 году DetZero занял первое место в рейтинге обнаружения 3D-объектов от Waymo с производительностью обнаружения 85,15 mAPH.&lt;br&gt;&lt;br&gt;Рассмотреть алгоритм в деталях можно на схеме, попробовать — на &lt;a href="https://github.com/PJLab-ADG/DetZero" rel="nofollow noopener noreferrer"&gt;Github&lt;/a&gt; авторов.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Александр Пономарчук&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Sparse4D v3: Advancing End-to-End 3D Detection and Tracking</title><link>https://t.me/DriverNotFound/15</link><guid>https://t.me/DriverNotFound/15</guid><pubDate>Tue, 18 Nov 2025 08:17:01 +0000</pubDate><description>&lt;strong&gt;Sparse4D v3: Advancing End-to-End 3D Detection and Tracking&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://arxiv.org/abs/2311.11722" rel="nofollow noopener noreferrer"&gt;одну из немногих статей&lt;/a&gt; об End-to-End 3D Detection and Tracking. Речь пойдёт о детекторе Sparse4Dv3 с хорошими метриками на &lt;a href="https://www.nuscenes.org/object-detection?externalData=all&amp;amp;mapData=all&amp;amp;modalities=Any" rel="nofollow noopener noreferrer"&gt;nuScenes&lt;/a&gt; — главном опенсорс-датасете для автономного транспорта.&lt;br&gt;&lt;br&gt;Sparse4D — camera-only multi-view 3D-детектор, который авторы постоянно развивают. Сегодня у него уже три версии, и в самой последней появился multi-object tracking. Но обо всём по порядку.&lt;br&gt;&lt;br&gt;&lt;strong&gt;Sparse4D v1.&lt;/strong&gt; Первый подход — энкодер-декодер архитектура camera-only multi-view детектор с временным контекстом. &lt;br&gt;&lt;br&gt;Из кадров видео, которое подаётся на вход, выделяются image-features с нескольких камер с разными масштабами и таймстемпами. Декодер делает последовательный фьюз этих фичей, используя 3D-anchor-box. После декодера инстансы рефайнят (доуточняют) с учётом confidence. Результат работы модели — предсказание положения 3D-box (задаются координатами, размерами и скоростью).&lt;br&gt;&lt;br&gt;&lt;strong&gt;Sparse4D v2&lt;/strong&gt; — улучшение первой версии за счёт применения рекуррентной схемы с фьюзом временного контекста. Дополнительно улучшить сходимость обучения модели на ранних шагах помогли данные о глубине лидара. &lt;br&gt;&lt;br&gt;&lt;strong&gt;Sparse4D v3. &lt;/strong&gt;Авторы ускорили обучение и улучшили сходимость модели:&lt;br&gt;&lt;br&gt;🔴 Temporal Instance Denoising — зашумили GT и добавили в обучение.&lt;br&gt;🔴 Decoupled Attention: заменили сложение на конкатенацию в механизме attention. &lt;br&gt;🔴 Quality Estimation: оценили centerness (уверенности в координатах) и yawness (уверенности в поворотах) в общий confidence каждого предсказания, а потом прокинули это в loss. &lt;br&gt;&lt;br&gt;А ещё в этой версии появилась возможность трекинга. Чтобы реализовать её, авторы добавили в информацию каждого предикта идентификатор (id): для предиктов из предыдущих кадров они сохранялись, для новых — генерировались заново. Так процесс трекинга не требует дообучения или файнтьюнинга детектора. Это просто дополнительная функциональность — назначение и сохранение id во времени. &lt;br&gt;&lt;br&gt;Познакомиться с решением поближе можно на &lt;a href="https://github.com/HorizonRobotics/Sparse4D" rel="nofollow noopener noreferrer"&gt;Github&lt;/a&gt; авторов.&lt;br&gt;&lt;br&gt;Разбор подготовила ❣️ Ольга Ротова&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models</title><link>https://t.me/DriverNotFound/14</link><guid>https://t.me/DriverNotFound/14</guid><pubDate>Wed, 12 Nov 2025 07:37:01 +0000</pubDate><description>&lt;strong&gt;Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня разберём &lt;a href="https://arxiv.org/abs/2412.05334" rel="nofollow noopener noreferrer"&gt;статью&lt;/a&gt; о том, как ребята из NVIDIA заняли первое место в лидерборде &lt;a href="https://waymo.com/research/the-waymo-open-sim-agents-challenge/" rel="nofollow noopener noreferrer"&gt;WOSAC&lt;/a&gt; от Waymo. Речь пойдёт о цикле SFT, а не о способах токенизации, старых слоях архитектуры или внутреннем cross attention.&lt;br&gt;&lt;br&gt;CAT-K — стратегия файнтюнинга, основанная на top-k-подходе. Её авторы поднимают проблему миссматча распределений во время обучения и на инференсе. &lt;br&gt;&lt;br&gt;Для обучения в &lt;strong&gt;open-loop&lt;/strong&gt; используются траектории водителей как условия (обуславливание на историю) в режиме behavior cloning. Но при симуляциях на инференсе агенты двигаются уже не по таким же хорошим траекториям в &lt;strong&gt;closed-loop&lt;/strong&gt;, а по своим собственным: с ошибками, которые накапливаются при последовательной генерации движения. Так могут возникать состояния, неучтённые в обучении.&lt;br&gt;&lt;br&gt;В качестве бейзлайна авторы используют авторегрессионный подход SMART с дельта-токенами:&lt;br&gt;&lt;br&gt;1. Фиксируют сетку по времени с шагом 0,5–2 секунды прошлого и 8 секунд будущего.&lt;br&gt;2. На каждом шаге по времени предсказывают для каждого агента токен с собственным сдвигом в координатах.&lt;br&gt;&lt;br&gt;Обычно авторегрессионные модели для Traffic Motion тренируют с помощью teacher-forcing как LLM модели: формулируют Traffic Motion как Next-Token-Prediction. Но для того, чтобы уменьшить миссматч авторы адаптируют Cross-Entropy Method (или модный SFT из LLM). &lt;br&gt;&lt;br&gt;Как устроен CEM:&lt;br&gt;&lt;br&gt;1. Генерирация набора траекторий (в closed-loop)&lt;br&gt;2. Отбор лучших кандидатов по метрике элиты.&lt;br&gt;3. Дообучение в режиме teacher-forcing на элитах.&lt;br&gt;&lt;br&gt;Элиты — моды в распределении, индуцируемом обученной моделью. Они близки к GT-тракеториям. То есть, если дообучаться на хороших траекториях из симуляций в closed-loop, миссматч между обучением и инференсом уменьшится. &lt;br&gt;&lt;br&gt;Остаётся только адаптировать дельта-токены для CEM:&lt;br&gt;&lt;br&gt;1. Выбрать K самых вероятных токенов на текущем шаге генерации.&lt;br&gt;2. Из K самых вероятных токенов выбрать тот, что лучше всего аппроксимирует GT.&lt;br&gt;3. Использовать выбранный токен для пересчёта следующего состояния.&lt;br&gt;&lt;br&gt;Контроль количества элит при генерации помогает избежать лишних симуляций и их фильтрации: дискретизация дельта-токенов — дискретизация первого порядка.&lt;br&gt;&lt;br&gt;Внедрение CAT-K помогло небольшой политике моделирования токенизированного трафика с 7 миллионами параметров превзойти модель с 102 миллионами параметров из того же семейства моделей и занять первое место в таблице лидеров Waymo Sim Agent Challenge на момент подачи заявки.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Тингир Бадмаев&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>UnO + GASP</title><link>https://t.me/DriverNotFound/13</link><guid>https://t.me/DriverNotFound/13</guid><pubDate>Thu, 06 Nov 2025 08:49:58 +0000</pubDate><description>&lt;strong&gt;UnO + GASP&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Сегодня обсудим две похожие и крайне интересные статьи на довольно редкую в сфере автономного транспорта тему претрейна — &lt;a href="https://arxiv.org/abs/2406.08691" rel="nofollow noopener noreferrer"&gt;UnO: Unsupervised Occupancy Fields for Perception and Forecasting&lt;/a&gt; и &lt;a href="https://arxiv.org/abs/2503.15672" rel="nofollow noopener noreferrer"&gt;GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving&lt;/a&gt;.&lt;br&gt;&lt;br&gt;Первая статья вышла в июне 2024 года. Её авторы, коллеги из Waabi, вдохновились идеями из мира LLM и придумали, как запускать SSL-претрейн BEV-like-энкодеров. Для этого они:&lt;br&gt;&lt;br&gt;1. Прогоняют сцену через энкодер, получая BEV.&lt;br&gt;2. Затем генерируют query:&lt;br&gt;    2.1 Луч лидара летит от ego до объекта. Если на пути луча нет препятствий, значит для любой точки на этом отрезке occupancy равняется нулю (можно ехать).&lt;br&gt;    2.2 Когда луч лидара попадает в объект, в этой точке (плюс eps за эту точку) occupancy равняется единице.&lt;br&gt;3. Через Deformable Attention подтягивают фичи с BEV для каждой точки из пункта 2 и решают задачу классификации occupancy.&lt;br&gt;4. Query можно генерировать из «будущих кадров», то есть предсказывать occupancy для точек x, y, z, t.&lt;br&gt;&lt;br&gt;В результате энкодер выучивает какие-то разумные фичи сцены и понимает, куда движутся объекты в сцене. Авторы также делают SFT для семантической сегментации BEV и показывают, что их претрейн даёт хорошие результаты, особенно при нехватке размеченных данных.&lt;br&gt;&lt;br&gt;В марте 2025-го другая группа исследователей выпускает статью о развитии метода — GASP. Здесь авторы добавляют ещё несколько UnO-like-голов. В этом подходе для каждой точки query можно предсказывать не только occupancy, но и DINO-фичи, которые проецируются с картинки на лидарную точку. Таким образом семантика «проливается» в претрейн.&lt;br&gt;&lt;br&gt;Кроме того, зная GT-траекторию, можно сэмплировать из неё точки (а также некоторый радиус) и задавать этим точкам класс 1, а остальным — 0, затем решая классификацию вида «хотим ли мы туда ехать».&lt;br&gt;&lt;br&gt;Далее авторы делают SFT на тех же задачах, что и в UnO, получая ещё более качественные результаты. GASP — по сути тот же UnO, но быстрее, выше, сильнее.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Денис Глазов&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection</title><link>https://t.me/DriverNotFound/12</link><guid>https://t.me/DriverNotFound/12</guid><pubDate>Wed, 29 Oct 2025 07:17:01 +0000</pubDate><description>&lt;strong&gt;SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection&lt;/strong&gt;&lt;br&gt;&lt;br&gt;О perception много статей с графиками и кодом, но лишь единицы попадают в топ &lt;a href="https://www.nuscenes.org/object-detection?externalData=all&amp;amp;mapData=all&amp;amp;modalities=Any" rel="nofollow noopener noreferrer"&gt;лидерборда nuScenes&lt;/a&gt; — главного датасета для автономного вождения. Именно там нашлась китайская &lt;a href="https://arxiv.org/abs/2411.05292" rel="nofollow noopener noreferrer"&gt;статья&lt;/a&gt;, которую разберём сегодня. &lt;br&gt;&lt;br&gt;Встречайте новый фреймворк SimpleBEV для слияния данных лидара и камер. Его фишка — максимальная простота при топовой точности.&lt;br&gt;&lt;br&gt;SimpleBEV — по сути, улучшенный &lt;a href="https://arxiv.org/abs/2205.13542" rel="nofollow noopener noreferrer"&gt;BEVFusion&lt;/a&gt;. Верхнеуровнево они мало чем отличаются, но если присмотреться повнимательнее, можно заметить два основных обновления.&lt;br&gt;&lt;br&gt;Во-первых, способ, которым авторы получают глубину изображения и переводят то, что сняли камеры, в 3D-сцены: умное поднятие камеры. &lt;br&gt;&lt;br&gt;1. Просят каскадную нейросеть предсказать глубину по картиночным фичам.&lt;br&gt;2. Ground truth проецируют лидарные точки на картинки с камер. Облако точек разрежено, поэтому получить глубину ground truth получится не для всех из них.&lt;br&gt;3. Конкатенируют данные из пункта 1 и 2, чтобы получить композитное распределение глубины — заполняют пробелы лидарных данных предсказаниями нейросети. &lt;br&gt;&lt;br&gt;Во-вторых, архитектура лидарного энкодера. Все 3D-карты разных масштабов, получившиеся после вокселизации и Sparse-свёрток, авторы конкатенируют и переводят в BEV. По их словам, это помогает терять меньше информации с мелкими масштабами. &lt;br&gt;&lt;br&gt;Кроме этого, авторы использовали ансамблирование и TTA. А ещё — увеличили количество hidden-размерностей в лидарном энкодере. Кода нет, поэтому цифрами подтвердить это предположение не получится. &lt;br&gt;&lt;br&gt;Всё это позволило получить на тестовом датасете NDS = 77,6 — что соответствует топ-3–топ-4 на &lt;a href="https://www.nuscenes.org/object-detection?externalData=all&amp;amp;mapData=all&amp;amp;modalities=Any" rel="nofollow noopener noreferrer"&gt;nuScenes&lt;/a&gt;. NDS разных модификаций BEVFusion при этом — 71,8 и 72,9. То есть улучшения подрастили метрику на 5+ единиц.&lt;br&gt;&lt;br&gt;Для валидации ансамблирование и TTA не использовали, а разрешение картинок было поменьше. Значения метрик при такой постановке задачи уменьшились, но SimpleBEV всё ещё впереди других версий BEVFusion: 73,5 против 71,0 и 71,4.&lt;br&gt;&lt;br&gt;Наибольший рост метрик помогает получить комбинация transformer-based head, аугментации вставками, multi-scaled feature fusion и увеличения каналов лидарного энкодера в 2 раза. &lt;br&gt;&lt;br&gt;SimpleBEV доказывает: иногда простые решения работают лучше, не стоит гнаться за сложными фьюжн-архитектурами. Качественное выравнивание данных в BEV, простое сложение признаков и мощный тренировочный пайплайн дали авторам почти SoTA-результат с меньшими вычислениями, что делает SimpleBEV очень практичным кандидатом для реальных систем.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Иван Лунев &lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Scaling Laws of Motion Forecasting and Planning</title><link>https://t.me/DriverNotFound/11</link><guid>https://t.me/DriverNotFound/11</guid><pubDate>Wed, 22 Oct 2025 07:04:47 +0000</pubDate><description>&lt;strong&gt;Scaling Laws of Motion Forecasting and Planning&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Waymo, подразделение беспилотных автомобилей Google, выпустили &lt;a href="https://arxiv.org/abs/2506.08228" rel="nofollow noopener noreferrer"&gt;техрепорт&lt;/a&gt; о том, как масштабируются модели. &lt;a href="https://arxiv.org/pdf/2203.15556" rel="nofollow noopener noreferrer"&gt;Похожая статья&lt;/a&gt; об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей. &lt;br&gt;&lt;br&gt;Сегодня разберёмся, есть ли оптимальное соотношение между размером нейросети и количеством обучающих примеров: такое, чтобы получить лучший результат в рамках заданного бюджета вычислений. &lt;br&gt; &lt;br&gt;Архитектура модели — обычный для планировщиков энкодер-декодер трансформер. Энкодеру c early fusion подают на вход информацию о сцене: дорожный граф, историю агентов (людей, машин, светофоров и других участников дорожного движения) за последние 5 секунд. Декодер из полученных эмбеддингов предсказывает дискретные ускорения для 8 агентов, а конечные траектории эго-автомобиля и других агентов восстанавливаются по Verlet. &lt;br&gt;&lt;br&gt;В отличие от Wayformer и MotionLM, где фичи агента кодируются в локальной системе координат каждого агента, в этой статье кодирование происходит в одной системе — в системе координат эго (global frame).&lt;br&gt;&lt;br&gt;Авторы обучали модель в режиме teacher forcing, используя cross-entropy loss. Датасет состоял из 6 млн уникальных и разнообразных (по утверждениям авторов) проездов, из которых простой фильтрацией и дедупликацией сэмплировали тридцатисекундные сегменты. Для получения большего числа сцен из этих сегментов используют скользящее окно 1,5 секунды.&lt;br&gt;&lt;br&gt;Всего авторы обучили 84 модели (от 900K параметров до 118M). Они систематически меняли размеры модели, датасета и бюджета вычислений. Число параметров варьировали за счёт количества слоев энкодера и декодера (соотношение ширины к глубине — 8 или 16). В одинаковый бюджет модели с меньшим и большим числом параметров укладывались изменением числа шагов в обучении.&lt;br&gt;&lt;br&gt;🔴Аналогично LLM, производительность модели повышается в зависимости от общего бюджета вычислений. &lt;br&gt;🔴Лосс обучения модели сильно коррелирует с метриками её оценки.&lt;br&gt;🔴Сlosed-loop-метрики улучшаются при масштабировании — это важно в рассуждениях о пригодности показателей open-loop для разработки моделей.&lt;br&gt;🔴Training loss параметризуют как L(N, D), где N — число параметров в модели, D — размер датасета. Оптимальные значения N, D ищут при фиксированном бюджете C (FLOPs). В ходе экспериментов N_opt ~ C^(0,63), D_opt ~ C^(0,44), iso-FLOPs кривые моделировали параболами, которые отличаются для разных категорий агентов. &lt;br&gt;🔴При исследовании масштабируемости по мере увеличения бюджета на инференсе сэмплировали разное число мод, после кластеризации их оставалось 6. Сначала качество по distance-метрикам растёт, потом наступает момент, когда дальнейшее увеличение бюджета нецелесообразно. От себя добавлю, что здесь было бы интереснее посмотреть, как меняется closed-loop performance.&lt;br&gt;🔴Авторы сравнили сетапы с эго-агентом в лоссе и без, оценивая качество по эго val loss. В первом случае значение функции потерь ожидаемо оказывается лучше. Но для сетапа с zero-shot предсказанием эго-качество тоже улучшается по мере увеличения бюджета. Для достижения таких же результатов, как в сетапе с эго-агентом, zero-shot требуется больше данных (примерное соотношение — 2-3 к 10).&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Павел Лукьянов&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-trai</title><link>https://t.me/DriverNotFound/7</link><guid>https://t.me/DriverNotFound/7</guid><pubDate>Thu, 16 Oct 2025 07:47:21 +0000</pubDate><description>&lt;strong&gt;Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Авторы &lt;a href="https://arxiv.org/abs/2503.20105" rel="nofollow noopener noreferrer"&gt;статьи&lt;/a&gt; предложили новый подход к дообучению traffic prediction-моделей без участия человека. Вместо ручной разметки или явной reward-функции они получают скрытые предпочтения (implicit preferences) из экспертных данных (GT). &lt;br&gt;&lt;br&gt;С помощью distance-функции исследователи измеряют, насколько поведение модели отклоняется от поведения эксперта, и на основе этого ранжируют сгенерированные траектории. В итоге формируются пары более предпочтительных и менее предпочтительных траекторий, по которым обучается модель, увеличивая относительную вероятность «лучших» траекторий по сравнению с базовой (pretrained) моделью.&lt;br&gt;&lt;br&gt;В качестве distance-функции авторы используют optimal transport на признаковом представлении траекторий — смотрят на разницу между распределениями фич агентов на каждом тике траектории, причём вектора суммируются таким образом, чтобы добиться инвариантности времени — получается распределение фич, которое работает и в будущем, и в прошлом. Фичи агентов извлекаются из траектории путём occupancy measure matching.&lt;br&gt;&lt;br&gt;Для дообучения модели используется contrastive learning, вдохновлённое DPO, но адаптированное под задачи планирования движения. В отличие от DPO, предпочтения не аннотированы вручную, а определяются по близости траектории к GT (ground truth).&lt;br&gt;&lt;br&gt;В качестве референсной модели взята Motion LM на 1М, и после дообучения итоговая модель показывает лучшие результаты, чем референсная. При этом на Waymo Open Sim Agents Challenge результаты эксперимента не лучше, чем SOTA больших моделей с размером 10-100М наподобие SMART или BehaviorGPT. &lt;br&gt;&lt;br&gt;Отдельно авторы показывают, что дообучать модель на парах GT vs generated — это не очень хорошо, потому что, имея дело с траекториями из разных распределений, дискриминатор слишком хорошо выучивает косвенные признаки, например, волнообразность сгенерированной траектории, то есть не то, что нужно для решения задачи.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Алексей Найденов&lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>RefAV: Towards Planning-Centric Scenario Mining</title><link>https://t.me/DriverNotFound/4</link><guid>https://t.me/DriverNotFound/4</guid><pubDate>Tue, 14 Oct 2025 11:00:47 +0000</pubDate><description>&lt;strong&gt;RefAV: Towards Planning-Centric Scenario Mining&lt;/strong&gt;&lt;br&gt;&lt;br&gt;Пока беспилотник накатывает часы по дорогам города, он собирает огромный массив информации об окружающем мире и событиях в нём. Каждая система (а в автомобиле их сотни) пишет свои данные. А ещё — умеет поставлять дополнительную информацию о событии, которое описывает. Например, датчик безопасности отправляет водителю предупреждение, а в логи записывает, что причина алерта — неисправность в двигателе или превышение скорости. В итоге, когда машина возвращается на базу, мы получаем огромный, частично размеченный массив данных. Хранить его удобнее в виде структуры, которую грубо можно назвать табличкой. &lt;br&gt;&lt;br&gt;Но как найти в этой табличке данные, действительно интересные для теста, обучения или аналитики? По-настоящему интересных событий среди записей не так уж много. К тому же, иногда требуется отыскать что-то совсем экстравагантное: например, как дети перебрасывают портфель над машинами, или уточка ведёт утят через дорогу и решила отдохнуть на полпути.&lt;br&gt;&lt;br&gt;В сегодняшней &lt;a href="https://arxiv.org/abs/2505.20981" rel="nofollow noopener noreferrer"&gt;статье&lt;/a&gt; авторы пытаются найти «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль. &lt;br&gt;&lt;br&gt;Идея в своей основе очень проста — давайте навайбкодим функцию, которая будет проверять, подходит ли нам записанное событие. Для начала авторы попробовали следующий бейзлайн: просили LLM посмотреть в записанные данные и сказать, подходят ли они к запросу с описанием. Подходят — добавляем в датасет, нет — пропускаем. &lt;br&gt;&lt;br&gt;Эта механика задумывалась как слабая точка для начала, но удивила экспериментаторов тем, что показала отличный результат по восстановлению интересных сцен. Для теста метода использовали вручную размеченные данные. &lt;br&gt;&lt;br&gt;Окончательный алгоритм посложнее: &lt;br&gt;&lt;br&gt;1. Руками создать описания функций, которые помогут отфильтровать только подходящие данные из всех записей (например is_speed_limit(all_data)-&amp;gt; bool). &lt;br&gt;2. Отдать LLM список этих функций и попросить построить из них более сложные — будущие фильтры для строчек из таблицы. &lt;br&gt;3. Полученной композитной функцией отфильтровать данные. Спойлер: останутся только интересные случаи!&lt;br&gt;&lt;br&gt;Так авторы собрали RefAV — набор данных из 10 000 различных запросов на естественном языке, которые описывают сложные мультиагентные взаимодействия. Данные о планировании движения получены из 1000 журналов данных, записанных  датчиками Argoverse 2. &lt;br&gt;&lt;br&gt;RefAV можно использовать в качестве тестового датасета для ваших пайплайнов сбора данных: ищите его и код фильтров &lt;a href="http://cainand.github.io/RefAV/" rel="nofollow noopener noreferrer"&gt;на Github авторов&lt;/a&gt;.&lt;br&gt;&lt;br&gt;Разбор подготовил ❣️ Дмитрий Хорошилов &lt;br&gt;&lt;a href="http://t.me/DriverNotFound" rel="nofollow noopener noreferrer"&gt;404 driver not found&lt;/a&gt;</description></item><item><title>Заводите моторы — мы отправляемся в увлекательную поездку без водителя! Добро пожаловать в 404 Driver Not Found — канал </title><link>https://t.me/DriverNotFound/2</link><guid>https://t.me/DriverNotFound/2</guid><pubDate>Tue, 14 Oct 2025 10:44:45 +0000</pubDate><description>Заводите моторы — мы отправляемся в увлекательную поездку без водителя! Добро пожаловать в &lt;strong&gt;404 Driver Not Found&lt;/strong&gt; — канал об ML в автономном транспорте, который ведут инженеры из Яндекса. Здесь вы найдёте разборы актуальных научных статей, обзоры профильных конференций, авторские подборки полезных материалов для ML’щика в сфере АТ и многое другое. &lt;br&gt;&lt;br&gt;Подписывайтесь, чтобы строить свой маршрут в мире автономного транспорта вместе с нами и оставаться в курсе главных тенденций индустрии 🚗</description></item></channel></rss>