OpenClaw внедрил локальные модели Gemma и Qwen на NVIDIA GB10 для сортировки задач
Локальные модели на видеокартах NVIDIA GB10 сортируют задачи с точностью, сопоставимой с облачными гигантами, но требуют затрат на электричество и специализированное железо. Экономия на подписках исчезает при масштабировании, если не учитывать риски падения скорости на стандартном оборудовании и необходимость гибридного контроля качества.
Команда проекта OpenClaw внедрила систему автоматической сортировки (триажа) задач и запросов на код с помощью локальных моделей искусственного интеллекта. Вместо использования облачных API, которые требуют подписки и имеют лимиты, разработчики развернули модели Gemma-4-26b и Qwen3.6-35b на собственном оборудовании с видеокартой NVIDIA GB10. Это решение позволяет обрабатывать входящие запросы в реальном времени без дополнительных расходов на вычисления, кроме затрат на электричество. Эксперимент показал, что локальные модели способны достигать точности, сопоставимой с флагманскими облачными решениями, при значительно меньшей стоимости владения.
Важный нюанс: Переход на локальные модели смещает фокус с экономии на токенах к оптимизации аппаратных ресурсов и энергопотребления.
Архитектура и инструменты
Система построена на принципе агентной классификации. Модель не просто получает текст задачи, а может активно исследовать репозиторий кода для уточнения контекста перед присвоением метки. Для обеспечения безопасности используется ограниченный интерфейс reposhell, который разрешает только чтение файлов (команды ls, cat, grep), блокируя любые попытки модификации кода или выполнения произвольных скриптов.
Процесс работы выглядит следующим образом:
- Новый запрос в репозитории попадает в локальную базу данных SQLite.
- Агент localpager-agent формирует контекст, включая заголовок, описание и фрагменты изменений кода.
- Модель принимает решение, используя доступные инструменты для чтения файлов, и выдает результат в строгом формате JSON.
- Окончательная отправка уведомления в Discord⋆ происходит по детерминированным правилам, что ускоряет процесс и снижает вероятность ошибок.
Для запуска агентов используется обвязка Pi, которая управляет вызовом локальных эндпоинтов. Это позволяет модели «думать» и собирать информацию, но ограничивает её действия только разрешенными операциями.
Стоит учесть: Использование агентов с доступом к файловой системе требует строгого контроля прав доступа. Ошибка в конфигурации может привести к утечке данных или повреждению репозитория, даже если модель работает локально.
Сравнение производительности моделей
Для оценки эффективности был создан эталонный набор из 330 задач, промаркированный с помощью мощных облачных моделей GPT-5.5 и Opus 4.8. Локальные модели тестировались на одном оборудовании с 128 ГБ объединенной памяти. Результаты показывают разницу в подходах: Gemma быстрее обрабатывает запросы и лучше находит все релевантные задачи, но чаще ошибается, присваивая лишние метки. Qwen работает медленнее, но демонстрирует более высокую точность и меньше ложных срабатываний.
| Метрика | Gemma-4-26b-a4b | Qwen3.6-35b-a3b | DeepSeek-V4-Flash (референс) |
|---|---|---|---|
| Точность (Precision) | 0.716 | 0.831 | 0.938 |
| Полнота (Recall) | 0.905 | 0.818 | 0.714 |
| F1-мера | 0.800 | 0.824 | 0.811 |
| Время на строку (сек) | 1.41 | 13.51 | 144.14 |
| Токенов в секунду | 25 (на воркер) | 50 (на воркер) | 13 |
| Количество параметров | 26 млрд | 35 млрд | 284 млрд |
Ключевым фактором успеха для Gemma стало использование квантования NVFP4 и оптимизаций под архитектуру Blackwell, что позволило достичь высокой пропускной способности. Модель DeepSeek-V4-Flash, несмотря на высокую точность, оказалась слишком медленной для реального времени на данном оборудовании.
На фоне этого: Выбор модели зависит от приоритета задачи. Если критично не пропустить ни одну важную проблему, лучше выбрать Gemma. Если важнее чистота ленты уведомлений и минимизация ложных тревог — предпочтительнее Qwen.
Операционные последствия и скрытые риски
Внедрение локальных моделей меняет экономику поддержки открытого ПО, но вносит новые требования к инфраструктуре.
- Зависимость от оборудования: Высокая производительность достигается только на специализированных видеокартах (в данном случае NVIDIA GB10). На стандартном потребительском железе скорость обработки может упасть в разы, сделав систему непригодной для потоковой обработки.
- Энергопотребление: Хотя модель работает «бесплатно» (без оплаты API), непрерывная работа мощного GPU требует значительных затрат на электричество и охлаждение, что может нивелировать экономию при масштабировании.
- Качество данных: Точность классификации напрямую зависит от качества промптов и доступности контекста. Модель может ошибаться, если в коде репозитория нет четких маркеров, позволяющих отличить одну категорию от другой.
- Калибровка системы: Для валидации работы локальной модели периодически требуется запуск более мощной облачной модели (в эксперименте — GPT-5.5) для проверки ошибок. Это создает гибридную схему, где часть затрат все же сохраняется.
Важный нюанс: Переход на локальные решения не устраняет потребность в контроле качества. Система требует периодической «аудитной» проверки более мощными моделями, чтобы убедиться в отсутствии систематических ошибок классификации.
Данный подход демонстрирует, что для задач высокой пропускной способности (триаж, фильтрация новостей, сортировка тикетов) локальные модели среднего размера становятся жизнеспособной альтернативой облачным гигантам, особенно при наличии подходящего оборудования.
Источник: huggingface.co