CV Time — пост #188

Что читает команда стримингового зрения: подборка актуальных статей

Заглянули к инженерам команды стримингового зрения в Яндексе — узнали, что они читают и обсуждают в последнее время. В сегодняшней подборке: новый мультивидовый датасет для устойчивого отслеживания объектов, трекинг мяча под окклюзией в спортивных видео и рекурсивное рассуждение маленьких нейросетей, которые обгоняют крупные LLM на логических задачах.

MITracker: Multi-View Integration for Visual Object Tracking

Авторы собрали и разметили крупный мультивидовый датасет (260 видео, около 234 тысяч кадров) с калибровкой камер, BEV-аннотациями и девятью атрибутами (occlusion, motion blur, low-res и др.). С одной стороны, этот датасет отличается разнообразием классов, с другой — ограничен только сценами в помещениях, что снижает переносимость в уличные условия.

Как устроен MITracker:

— View-specific feature extraction: для каждой камеры используется отдельный Vision Transformer, который извлекает представления целевого объекта в поточном кадре; объект задаётся эталонным изображением.

— Multi-view integration: 2D-признаки всех ракурсов проецируются и объединяются в 3D-feature volume с использованием BEV-информации; этот объём применяется в spatial-enhanced attention, который корректирует представления и улучшает локализацию и ассоциацию.

TOTNet: Occlusion-Aware Temporal Tracking for Robust Ball Detection in Sports Videos

TOTNet вводит архитектуру для трекинга мяча в спортивных видео, специально сфокусированную на работе в условиях частичной и полной окклюзии. Модель сохраняет временную структуру данных за счёт применения 3D-свёрток. Это позволяет извлекать динамические признаки движения, а не статические из пачки кадров.

Ключевые компоненты TOTNet:

— Occlusion Augmentation: специальная аугментация, которая имитирует скрытие мяча, чтобы модель училась восстанавливать позицию по контексту.

— Visibility-weighted BCE loss: взвешенная функция потерь, которая усиливает вклад случаев с окклюзией при обучении.

— Интеграция оптического потока (RAFT): используется для более точного захвата движения мяча в быстрых сценах.

В результате модель устойчиво отслеживает мяч, даже когда он временно исчезает из кадра, и превосходит предыдущие методы на всех спортивных датасетах, включая новый датасет TTA (Table Tennis under Occlusion).

Less is More: Recursive Reasoning with Tiny Networks

В статье авторыпредставляют Tiny Recursive Model (TRM) — простой и эффективный подход к решению сложных логических задач. Суть метода в использовании маленькой нейросети (всего 7 млн параметров), которая рекурсивно, шаг за шагом «размышляет» над решением и улучшает свои ответы с помощью механизма deep supervision.

По результатам экспериментов TRM превосходит современные LLM на бенчмарках Sudoku и ARC-AGI, используя при этом в тысячи раз меньше вычислительных ресурсов. Авторы отмечают, что для некоторых типов задач, особенно при ограниченном количестве обучающих данных, глубокая рекурсия компактной сети помогает избежать переобучения и оказывается намного эффективнее простого увеличения размера модели.

CV Time