Модель VLX-Go от OMLab переводит визуальные команды в точки движения без лишних вычислений
Модель весом 0,6 млрд параметров отказалась от текстовых описаний в пользу мгновенного расчета координат, сокращая задержку реакции робота до долей секунды. Переход от генерации отчетов к прямым командам движения позволяет развернуть автономную навигацию на бюджетном бортовом оборудовании без потери точности в динамичной среде.
Команда OMLab представила модель VLX-Go — компактный планировщик навигации для роботов, который переводит визуальные данные и текстовые команды в конкретные точки движения. Вместо генерации описаний сцены, алгоритм размером 0,6 млрд параметров рассчитывает краткосрочные маршруты, позволяя роботу мгновенно корректировать траекторию при появлении препятствий. Решение опубликовано 28 июня 2026 года и ориентировано на работу в замкнутом цикле, где планирование и исполнение постоянно обновляются.
От описания к действию
Традиционные мультимодальные модели часто тратят ресурсы на создание текстовых отчетов о том, что видит камера. Для робота это избыточно: ему нужны не слова, а координаты следующего шага. VLX-Go закрывает этот разрыв, выступая промежуточным слоем между восприятием и управлением.
Модель принимает на вход три потока данных:
- Недавние кадры видео для понимания динамики сцены.
- Текущий кадр для фиксации состояния.
- Текстовую инструкцию (например, «следуй за человеком» или «пройди через коридор»).
На выходе система формирует последовательность локальных точек (waypoints), которые передаются контроллеру робота. Это позволяет разделить задачи: нейросеть решает, куда двигаться, а низкоскоростной контроллер отвечает за физику движения, скорость и безопасность.
Важный нюанс: Архитектура модели намеренно избегает планирования глобального маршрута целиком. Вместо этого она работает в режиме скользящего горизонта, пересчитывая цели каждые несколько секунд по мере поступления новых данных.
Технические особенности и эффективность
Ключевое преимущество VLX-Go — баланс между точностью и скоростью вычислений. Модель весит всего 0,6 млрд параметров, что критично для робототехники, где решения должны приниматься в реальном времени на бортовом оборудовании.
Обучение проходит в два этапа:
- Офлайн-обучение: Модель изучает демонстрационные траектории, видео и инструкции, чтобы научиться базовому следованию за целью.
- Онлайн-оптимизация: В симуляторе робот отрабатывает сценарии столкновений, застреваний и потери цели. Это позволяет алгоритму адаптироваться к ошибкам, которые редко встречаются в статических обучающих данных.
На тестовом полигоне EVT-Bench решение показало высокий уровень успеха (SR) и лучший показатель удержания цели (TR) среди аналогов того же масштаба. Однако снижение частоты столкновений (CR) остается зоной для дальнейшей доработки контроллеров и систем безопасности.
Операционные последствия и скрытые риски
Внедрение подобных решений меняет подход к разработке автономных систем, смещая фокус с создания «супер-мозгов» на оптимизацию интерфейсов между восприятием и управлением.
- Эксплуатация в динамике: Способность перепланировать маршрут на лету критична для помещений с людьми. Статичные карты здесь не работают, а VLX-Go позволяет роботу реагировать на внезапное появление препятствия без полной остановки.
- Зависимость от симуляции: Качество работы в реальном мире напрямую зависит от реалистичности симулятора, где проходила дообучающая фаза. Если виртуальная среда не отражает физические нюансы реального пола или освещения, робот может ошибаться при переходе в реальный мир.
- Разделение ответственности: Четкое разделение на планировщик и контроллер упрощает отладку. Если робот врезается в стену, инженеры могут проверить, была ли ошибка в расчете точки (модель) или в исполнении команды (контроллер), не пересобирая всю систему.
Стоит учесть: Несмотря на высокую точность отслеживания цели, текущая версия модели требует тщательной настройки внешних систем безопасности для минимизации риска столкновений в сложных сценариях.
Контекст и последствия
Технология VLX-Go демонстрирует тренд на создание легких, специализированных моделей для конкретных задач, а не универсальных гигантов. Для рынка робототехники это сигнал: эффективность навигации теперь зависит не столько от размера нейросети, сколько от качества интерфейса между «глазами» робота и его «ногами».
Решение доступно для изучения в репозитории om-ai-lab/VLX-Go, что позволяет исследователям и инженерам интегрировать этот подход в свои проекты. Для российских разработчиков это пример того, как можно снизить требования к вычислительной мощности бортовых систем, сохранив при этом высокую интеллектуальную составляющую навигации.