Модель VLX-Seek-3B обходит Qwen и Gemini в точности локализации для роботов
Генерация координат объектов через языковые модели создает критические задержки и ошибки, делая автономные системы неэффективными. Новая архитектура VLX-Seek заменяет вычисление чисел на выбор готовых регионов, позволяя компактной модели превзойти тяжелые аналоги в точности и скорости работы на устройствах с ограниченными ресурсами.
Команда OMLab представила модель VLX-Seek, которая меняет подход к локализации объектов в мультимодальных моделях. Вместо того чтобы заставлять языковую модель генерировать координаты границ, система переводит задачу в формат выбора из предложенных регионов. Это позволяет модели VLX-Seek-3B превзойти более крупные аналоги, такие как Qwen2.5-VL-7B и Gemini 3.1 Pro, в задачах точного определения местоположения и подсчета объектов. Ключевое преимущество — стабильность работы и скорость вывода на устройствах с ограниченными ресурсами, что критично для роботов и дронов.
Смена парадигмы: от генерации чисел к выбору регионов
Традиционные мультимодальные модели (VLM) отлично справляются с описанием сцены, но теряют точность при попытке указать конкретное место объекта. Они вынуждены генерировать последовательности чисел в формате [x1, y1, x2, y2]. Для языковых моделей это неестественная задача: малейшая ошибка в порядке цифр, знаках или количестве токенов делает результат нечитаемым. При обнаружении множества объектов длина вывода растет, замедляя работу и увеличивая вероятность сбоев.
VLX-Seek решает проблему, меняя саму логику работы. Модель больше не изобретает координаты с нуля. Вместо этого процесс выглядит так:
- Система сначала находит кандидаты — потенциальные области с объектами.
- Каждый кандидат кодируется в специальный токен, понятный языковой модели.
- Пользователь задает вопрос на естественном языке, а модель просто выбирает нужный индекс региона (например,
<region2>).
Такой подход превращает локализацию в задачу поиска и сравнения, где языковые модели чувствуют себя уверенно. Это упрощает вывод: вместо длинной строки чисел модель выдает короткий индекс, что снижает нагрузку на процессор и ускоряет реакцию.
Важный нюанс: Смена формата вывода с координат на индексы регионов не просто ускоряет работу, но и делает её предсказуемой. Модель перестает «галлюцинировать» цифры, так как выбирает из готового набора, а не выдумывает их.
Архитектура и механизм работы
В основе системы лежит гибридный кодировщик HFRE (Hybrid Fine-grained Region Encoder). Он объединяет два типа визуального анализа, которые обычно конфликтуют друг с другом:
- Семантическое понимание: Модель знает, что изображено (например, «человек» или «стол»).
- Детализация: Модель видит границы, текстуры и мелкие объекты.
Для работы с объектами разного размера используется модуль SimpleFP, который добавляет мультимасштабные представления. Это позволяет системе одинаково хорошо обрабатывать как крупного человека, так и маленький телефон на столе.
Процесс обучения разделен на два этапа для сохранения общих способностей модели:
- Согласование регионов и языка: Модель учится связывать визуальные регионы с текстовыми токенами, не меняя основные параметры языкового ядра.
- Настройка под восприятие: Добавляются сложные задачи (подсчет, поиск по описанию), но в данные включаются примеры, где объекта нет. Это учит модель корректно отвечать «объект не найден», а не указывать на случайную область.
Результаты тестирования и сравнение
Модель VLX-Seek-3B демонстрирует результаты, превосходящие более тяжелые решения, что подтверждает эффективность нового подхода. Данные получены на стандартных наборах тестов:
| Задача | Метрика | VLX-Seek-3B | Qwen2.5-VL-7B | Gemini 3.1 Pro |
|---|---|---|---|---|
| Обнаружение объектов | mAP (COCO) | 45.3 | 17.7 | 41.4 |
| Открытый словарь | OVDEval | 43.7 | — | — |
| Поиск по описанию | RefCOCO (среднее) | 88.7 | 88.2 | 84.1 |
| Подсчет объектов | PixMo-Count | 85.0 | — | 73.8 |
Модель показывает высокую точность в сложных сценариях, например, при поиске «второго человека слева в черном» или подсчете частично скрытых объектов. Подсчет реализован через механизм «сначала найти, потом посчитать», что надежнее, чем попытка оценить количество по общему впечатлению от картинки.
Стоит учесть: Преимущество VLX-Seek наиболее заметно в сценариях с множеством объектов. Чем больше целей на изображении, тем сильнее выигрывает подход с выбором регионов по сравнению с генерацией длинных последовательностей координат.
Операционные последствия и скрытые риски
Внедрение подобных технологий меняет требования к аппаратному обеспечению и логике разработки систем компьютерного зрения.
- Снижение порога входа для робототехники: Компактная модель (3 млрд параметров) может работать на устройствах с ограниченными ресурсами (дроны, камеры, роботы) без необходимости подключения к мощным облачным серверам. Это снижает задержки (latency) и затраты на передачу данных.
- Зависимость от качества детектора кандидатов: Точность всей системы зависит от первого этапа — сети OPN, которая предлагает регионы. Если эта сеть пропустит объект, языковая модель не сможет его найти, так как работает только с предложенным списком.
- Сложность интеграции: Переход с привычных координатных выходов на систему региональных токенов потребует переработки программных интерфейсов (API) в существующих системах управления роботами и камерами.
- Потенциал для автономных решений: Возможность модели точно указывать «что» и «где» открывает путь к созданию роботов, способных выполнять сложные манипуляции (взять конкретный предмет, обойти препятствие) без постоянного контроля оператора.
На фоне этого: Успех VLX-Seek указывает на то, что будущее точного зрительного восприятия лежит не в увеличении размера языковых моделей, а в оптимизации формата взаимодействия между визуальными и текстовыми данными.