Июнь 2026 | В фокусе

OpenClaw внедрил локальные модели Gemma и Qwen на NVIDIA GB10 для сортировки задач

Локальные модели на видеокартах NVIDIA GB10 сортируют задачи с точностью, сопоставимой с облачными гигантами, но требуют затрат на электричество и специализированное железо. Экономия на подписках исчезает при масштабировании, если не учитывать риски падения скорости на стандартном оборудовании и необходимость гибридного контроля качества.

Содержание

Обзор

Архитектура и инструменты

Сравнение производительности моделей

Операционные последствия и скрытые риски

Команда проекта OpenClaw внедрила систему автоматической сортировки (триажа) задач и запросов на код с помощью локальных моделей искусственного интеллекта. Вместо использования облачных API, которые требуют подписки и имеют лимиты, разработчики развернули модели Gemma-4-26b и Qwen3.6-35b на собственном оборудовании с видеокартой NVIDIA GB10. Это решение позволяет обрабатывать входящие запросы в реальном времени без дополнительных расходов на вычисления, кроме затрат на электричество. Эксперимент показал, что локальные модели способны достигать точности, сопоставимой с флагманскими облачными решениями, при значительно меньшей стоимости владения.

Важный нюанс: Переход на локальные модели смещает фокус с экономии на токенах к оптимизации аппаратных ресурсов и энергопотребления.

Архитектура и инструменты

Система построена на принципе агентной классификации. Модель не просто получает текст задачи, а может активно исследовать репозиторий кода для уточнения контекста перед присвоением метки. Для обеспечения безопасности используется ограниченный интерфейс reposhell, который разрешает только чтение файлов (команды ls, cat, grep), блокируя любые попытки модификации кода или выполнения произвольных скриптов.

Процесс работы выглядит следующим образом:

Новый запрос в репозитории попадает в локальную базу данных SQLite.
Агент localpager-agent формирует контекст, включая заголовок, описание и фрагменты изменений кода.
Модель принимает решение, используя доступные инструменты для чтения файлов, и выдает результат в строгом формате JSON.
Окончательная отправка уведомления в Discord⋆ происходит по детерминированным правилам, что ускоряет процесс и снижает вероятность ошибок.

Для запуска агентов используется обвязка Pi, которая управляет вызовом локальных эндпоинтов. Это позволяет модели «думать» и собирать информацию, но ограничивает её действия только разрешенными операциями.

Стоит учесть: Использование агентов с доступом к файловой системе требует строгого контроля прав доступа. Ошибка в конфигурации может привести к утечке данных или повреждению репозитория, даже если модель работает локально.

Сравнение производительности моделей

Для оценки эффективности был создан эталонный набор из 330 задач, промаркированный с помощью мощных облачных моделей GPT-5.5 и Opus 4.8. Локальные модели тестировались на одном оборудовании с 128 ГБ объединенной памяти. Результаты показывают разницу в подходах: Gemma быстрее обрабатывает запросы и лучше находит все релевантные задачи, но чаще ошибается, присваивая лишние метки. Qwen работает медленнее, но демонстрирует более высокую точность и меньше ложных срабатываний.

Метрика	Gemma-4-26b-a4b	Qwen3.6-35b-a3b	DeepSeek-V4-Flash (референс)
Точность (Precision)	0.716	0.831	0.938
Полнота (Recall)	0.905	0.818	0.714
F1-мера	0.800	0.824	0.811
Время на строку (сек)	1.41	13.51	144.14
Токенов в секунду	25 (на воркер)	50 (на воркер)	13
Количество параметров	26 млрд	35 млрд	284 млрд

Ключевым фактором успеха для Gemma стало использование квантования NVFP4 и оптимизаций под архитектуру Blackwell, что позволило достичь высокой пропускной способности. Модель DeepSeek-V4-Flash, несмотря на высокую точность, оказалась слишком медленной для реального времени на данном оборудовании.

На фоне этого: Выбор модели зависит от приоритета задачи. Если критично не пропустить ни одну важную проблему, лучше выбрать Gemma. Если важнее чистота ленты уведомлений и минимизация ложных тревог — предпочтительнее Qwen.

Операционные последствия и скрытые риски

Внедрение локальных моделей меняет экономику поддержки открытого ПО, но вносит новые требования к инфраструктуре.

Зависимость от оборудования: Высокая производительность достигается только на специализированных видеокартах (в данном случае NVIDIA GB10). На стандартном потребительском железе скорость обработки может упасть в разы, сделав систему непригодной для потоковой обработки.
Энергопотребление: Хотя модель работает «бесплатно» (без оплаты API), непрерывная работа мощного GPU требует значительных затрат на электричество и охлаждение, что может нивелировать экономию при масштабировании.
Качество данных: Точность классификации напрямую зависит от качества промптов и доступности контекста. Модель может ошибаться, если в коде репозитория нет четких маркеров, позволяющих отличить одну категорию от другой.
Калибровка системы: Для валидации работы локальной модели периодически требуется запуск более мощной облачной модели (в эксперименте — GPT-5.5) для проверки ошибок. Это создает гибридную схему, где часть затрат все же сохраняется.

Важный нюанс: Переход на локальные решения не устраняет потребность в контроле качества. Система требует периодической «аудитной» проверки более мощными моделями, чтобы убедиться в отсутствии систематических ошибок классификации.

Данный подход демонстрирует, что для задач высокой пропускной способности (триаж, фильтрация новостей, сортировка тикетов) локальные модели среднего размера становятся жизнеспособной альтернативой облачным гигантам, особенно при наличии подходящего оборудования.

Источник: huggingface.co

Контакты Асектор ✉

Коротко о главном

Каким образом система обеспечивает безопасность при анализе репозитория кода?

Для предотвращения модификации файлов используется ограниченный интерфейс reposhell, разрешающий только команды чтения, такие как ls, cat и grep. Блокировка произвольного выполнения скриптов исключает риск повреждения кода или утечки данных агентом.

Какова разница в точности и скорости между моделями Gemma и Qwen при тестировании на 330 задачах?

Модель Gemma обрабатывает строки за 1,41 секунды и лучше находит все релевантные задачи, но чаще присваивает лишние метки, тогда как Qwen работает медленнее (13,51 секунды), но демонстрирует более высокую точность и меньше ложных срабатываний.

Почему модель Gemma-4-26b достигла высокой пропускной способности на данном оборудовании?

Высокая скорость обработки стала возможной благодаря использованию квантования NVFP4 и специализированных оптимизаций под архитектуру Blackwell видеокарт. Эти технические решения позволили модели опережать более тяжелые аналоги по скорости при сохранении приемлемого качества.

Какие скрытые риски возникают при масштабировании локальной системы сортировки?

Несмотря на отсутствие платы за токены, непрерывная работа мощных GPU требует значительных затрат на электричество и охлаждение, что может нивелировать экономию. Кроме того, производительность критически зависит от наличия специализированного оборудования, так как на стандартном железе скорость обработки падает в разы.

Зачем периодически требуется запуск облачной модели GPT-5.5 в гибридной схеме?

Для валидации работы локальной модели и выявления систематических ошибок классификации необходимо проводить аудит с помощью более мощных облачных решений. Это создает гибридную схему, где часть затрат сохраняется для обеспечения качества данных.