Июнь 2026 | В фокусе

Модель VLX-Seek-3B обходит Qwen и Gemini в точности локализации для роботов

Генерация координат объектов через языковые модели создает критические задержки и ошибки, делая автономные системы неэффективными. Новая архитектура VLX-Seek заменяет вычисление чисел на выбор готовых регионов, позволяя компактной модели превзойти тяжелые аналоги в точности и скорости работы на устройствах с ограниченными ресурсами.

Содержание

Обзор

Смена парадигмы: от генерации чисел к выбору регионов

Архитектура и механизм работы

Результаты тестирования и сравнение

Операционные последствия и скрытые риски

Команда OMLab представила модель VLX-Seek, которая меняет подход к локализации объектов в мультимодальных моделях. Вместо того чтобы заставлять языковую модель генерировать координаты границ, система переводит задачу в формат выбора из предложенных регионов. Это позволяет модели VLX-Seek-3B превзойти более крупные аналоги, такие как Qwen2.5-VL-7B и Gemini 3.1 Pro, в задачах точного определения местоположения и подсчета объектов. Ключевое преимущество — стабильность работы и скорость вывода на устройствах с ограниченными ресурсами, что критично для роботов и дронов.

Смена парадигмы: от генерации чисел к выбору регионов

Традиционные мультимодальные модели (VLM) отлично справляются с описанием сцены, но теряют точность при попытке указать конкретное место объекта. Они вынуждены генерировать последовательности чисел в формате [x1, y1, x2, y2]. Для языковых моделей это неестественная задача: малейшая ошибка в порядке цифр, знаках или количестве токенов делает результат нечитаемым. При обнаружении множества объектов длина вывода растет, замедляя работу и увеличивая вероятность сбоев.

VLX-Seek решает проблему, меняя саму логику работы. Модель больше не изобретает координаты с нуля. Вместо этого процесс выглядит так:

Система сначала находит кандидаты — потенциальные области с объектами.
Каждый кандидат кодируется в специальный токен, понятный языковой модели.
Пользователь задает вопрос на естественном языке, а модель просто выбирает нужный индекс региона (например, <region2>).

Такой подход превращает локализацию в задачу поиска и сравнения, где языковые модели чувствуют себя уверенно. Это упрощает вывод: вместо длинной строки чисел модель выдает короткий индекс, что снижает нагрузку на процессор и ускоряет реакцию.

Важный нюанс: Смена формата вывода с координат на индексы регионов не просто ускоряет работу, но и делает её предсказуемой. Модель перестает «галлюцинировать» цифры, так как выбирает из готового набора, а не выдумывает их.

Архитектура и механизм работы

В основе системы лежит гибридный кодировщик HFRE (Hybrid Fine-grained Region Encoder). Он объединяет два типа визуального анализа, которые обычно конфликтуют друг с другом:

Семантическое понимание: Модель знает, что изображено (например, «человек» или «стол»).
Детализация: Модель видит границы, текстуры и мелкие объекты.

Для работы с объектами разного размера используется модуль SimpleFP, который добавляет мультимасштабные представления. Это позволяет системе одинаково хорошо обрабатывать как крупного человека, так и маленький телефон на столе.

Процесс обучения разделен на два этапа для сохранения общих способностей модели:

Согласование регионов и языка: Модель учится связывать визуальные регионы с текстовыми токенами, не меняя основные параметры языкового ядра.
Настройка под восприятие: Добавляются сложные задачи (подсчет, поиск по описанию), но в данные включаются примеры, где объекта нет. Это учит модель корректно отвечать «объект не найден», а не указывать на случайную область.

Результаты тестирования и сравнение

Модель VLX-Seek-3B демонстрирует результаты, превосходящие более тяжелые решения, что подтверждает эффективность нового подхода. Данные получены на стандартных наборах тестов:

Задача	Метрика	VLX-Seek-3B	Qwen2.5-VL-7B	Gemini 3.1 Pro
Обнаружение объектов	mAP (COCO)	45.3	17.7	41.4
Открытый словарь	OVDEval	43.7	—	—
Поиск по описанию	RefCOCO (среднее)	88.7	88.2	84.1
Подсчет объектов	PixMo-Count	85.0	—	73.8

Модель показывает высокую точность в сложных сценариях, например, при поиске «второго человека слева в черном» или подсчете частично скрытых объектов. Подсчет реализован через механизм «сначала найти, потом посчитать», что надежнее, чем попытка оценить количество по общему впечатлению от картинки.

Стоит учесть: Преимущество VLX-Seek наиболее заметно в сценариях с множеством объектов. Чем больше целей на изображении, тем сильнее выигрывает подход с выбором регионов по сравнению с генерацией длинных последовательностей координат.

Операционные последствия и скрытые риски

Внедрение подобных технологий меняет требования к аппаратному обеспечению и логике разработки систем компьютерного зрения.

Снижение порога входа для робототехники: Компактная модель (3 млрд параметров) может работать на устройствах с ограниченными ресурсами (дроны, камеры, роботы) без необходимости подключения к мощным облачным серверам. Это снижает задержки (latency) и затраты на передачу данных.
Зависимость от качества детектора кандидатов: Точность всей системы зависит от первого этапа — сети OPN, которая предлагает регионы. Если эта сеть пропустит объект, языковая модель не сможет его найти, так как работает только с предложенным списком.
Сложность интеграции: Переход с привычных координатных выходов на систему региональных токенов потребует переработки программных интерфейсов (API) в существующих системах управления роботами и камерами.
Потенциал для автономных решений: Возможность модели точно указывать «что» и «где» открывает путь к созданию роботов, способных выполнять сложные манипуляции (взять конкретный предмет, обойти препятствие) без постоянного контроля оператора.

На фоне этого: Успех VLX-Seek указывает на то, что будущее точного зрительного восприятия лежит не в увеличении размера языковых моделей, а в оптимизации формата взаимодействия между визуальными и текстовыми данными.

Контакты Асектор ✉

Коротко о главном

Какой результат VLX-Seek-3B показала в метрике обнаружения объектов mAP (COCO)?

Модель достигла показателя 45.3, что значительно выше результата Qwen2.5-VL-7B (17.7) и Gemini 3.1 Pro (41.4), благодаря переходу к механизму поиска и сравнения вместо генерации длинных последовательностей.

Какую роль играет гибридный кодировщик HFRE в архитектуре системы?

Этот модуль объединил семантическое понимание сцены и детальную визуализацию границ, что позволило модели одинаково точно обрабатывать объекты разного размера, от крупных людей до мелких предметов на столе.

Как обучается модель корректно реагировать на отсутствие искомого объекта?

В процесс обучения включены примеры, где объект отсутствует, что заставляет систему выдавать ответ «объект не найден» вместо указания на случайную область, предотвращая галлюцинации.

Почему точность всей системы зависит от работы сети OPN?

Поскольку языковая модель выбирает ответ только из предложенного списка кандидатов, пропуск объекта на этапе генерации регионов сетью OPN делает невозможным его последующее обнаружение, независимо от качества языкового ядра.

Какое влияние новая архитектура окажет на робототехнику и дроны?

Компактный размер модели (3 млрд параметров) позволяет запускать её на устройствах с ограниченными ресурсами без облачных серверов, что снижает задержки и затраты на передачу данных для автономных операций.

В чем заключается преимущество подхода «сначала найти, потом посчитать» при подсчете объектов?

Механизм последовательного поиска и подсчета обеспечивает более надежный результат в сложных сценариях с частично скрытыми объектами, чем оценка количества по общему впечатлению от изображения.

Какие сложности возникнут при внедрении VLX-Seek в существующие системы?

Переход от привычных координатных выходов к системе региональных токенов потребует полной переработки программных интерфейсов (API) в текущих системах управления роботами и камерами.