Тест DukaanBench: GPT-5.5 выигрывает у конкурентов за счет баланса прибыли и доверия клиентов
Новый тест DukaanBench доказал, что высокий интеллект языковых моделей не гарантирует успеха в управлении бизнесом: лидеры по прибыли разоряют магазины из-за потери доверия клиентов. Внедрение ИИ в ритейл требует перехода от оценки умных ответов к проверке способности генерировать безотказный код и сохранять репутацию в условиях реальных операционных рисков.
Исследователи из Capabl Machines запустили проект DukaanBench, который проверяет способность языковых моделей управлять реальным бизнесом, а не просто отвечать на вопросы. В симуляции модель выступает в роли владельца индийского лавки kirana, принимая решения в течение 30 дней: от закупок и управления кредитом (khata) до маркетинга и контроля запасов. Тест показал, что высокий интеллект не гарантирует успеха: модель GPT-5.5 заняла первое место, сохранив доверие клиентов и прибыль, в то время как другие модели, несмотря на генерацию прибыли, разрушили репутацию магазина из-за частых дефицитов.
Механика симуляции и критерии успеха
Проект создает замкнутый цикл, где каждое действие модели меняет состояние магазина на следующий день. ИИ получает данные о погоде, остатках, долгах клиентов и истории продаж, после чего должен сформировать единый файл JSON с конкретными командами. Система не прощает расхождений между намерениями и действиями: если модель пишет в объяснении, что запустит акцию, но не включает её в исполняемый код, акция не состоится.
Оценка эффективности строится на пяти ключевых метриках, где прибыль не является единственным показателем:
- Доверие (Trust): Снижается при повторных отказах в продаже товаров первой необходимости.
- Обслуживание (Service Rate): Процент удовлетворенного спроса клиентов.
- Финансы: Итоговая касса и управление денежным потоком.
- Маркетинг: Эффективность кампаний, учитывающая наличие товара на складе.
- Надежность: Способность генерировать корректный код без ошибок валидации.
Важный нюанс: В этой модели доверие клиентов работает как актив, который можно потерять, но крайне сложно восстановить. Разовая ошибка в поставке молока может привести к потере постоянного покупателя, что в долгосрочной перспективе нанесет больший ущерб, чем упущенная выгода от одной продажи.
Результаты лидерборда: кто управляет лучше всего
По состоянию на 27 июня 2026 года тестирование прошли несколько ведущих моделей. Лидерство определяется не только суммой денег, но и балансом между операционной эффективностью и сохранением отношений с клиентами.
| Модель | Награда (Reward) | Итоговая касса | Доверие | Обслуживание | Пропущенные единицы |
|---|---|---|---|---|---|
| GPT-5.5 | +2,294 | ₹50,184 | 100 | 97.5% | 212 |
| Gemini 3.1 Pro | +2,064 | ₹45,869 | 97 | 96.5% | 274 |
| Claude Opus 4.8 | +1,773 | ₹46,440 | 99 | 93.9% | 473 |
| Gemini 3.1 Flash Lite | +1,581 | ₹34,760 | 90 | 91.6% | 583 |
| Grok 4.3 | +1,125 | ₹34,353 | 29 | 88.3% | 750 |
| Qwen 3.7 Max | +275 | ₹28,731 | 10 | 79.8% | 1,155 |
Модель GPT-5.5 продемонстрировала наиболее сбалансированное поведение: она не просто максимизировала прибыль, но и держала уровень доверия на максимуме (100), минимизируя количество отказов в продаже. Gemini 3.1 Pro показала отличные результаты в управлении отношениями и маркетинге, но потребовала 8 попыток исправления ошибок валидации кода, что снижает её надежность для автономной работы. Claude Opus 4.8 действовала слишком консервативно, избегая рисков, но из-за этого часто недооценивала спрос, что привело к большему количеству упущенных продаж.
Стоит учесть: Модель Grok 4.3 показала интересный парадокс: она работала без технических сбоев и генерировала прибыль, но её стратегия привела к падению доверия до 29 пунктов. Это доказывает, что краткосрочная финансовая выгода без учета клиентского опыта ведет к стратегическому провалу в розничной торговле.
Операционные последствия и скрытые риски
Анализ поведения моделей выявил несколько критических факторов, которые необходимо учитывать при внедрении ИИ в управление бизнесом:
- Разрыв между намерением и действием: Многие модели генерировали убедительные текстовые объяснения планов, но не могли корректно перевести их в исполняемый формат JSON. Это означает, что для реального внедрения требуется жесткая валидация кода, а не просто проверка логики ответа.
- Зависимость маркетинга от логистики: Модели, которые запускали рекламные кампании без учета остатков на складе, создавали искусственный дефицит. Это приводило к росту недовольства клиентов и падению доверия, что подтверждает необходимость синхронизации маркетинговых и складских алгоритмов.
- Накопительный эффект ошибок: В симуляции ошибки не изолированы. Пропущенная продажа в один день влияла на поведение клиента в следующие дни. Это требует от ИИ способности к долгосрочному планированию и восстановлению после сбоев, а не только к оптимизации текущего шага.
- Скорость против точности: Модель Gemini 3.1 Flash Lite показала, что можно достичь приемлемых результатов с минимальной задержкой (2.4 с), что делает её потенциально более применимой для систем реального времени, несмотря на более низкий общий балл.
На фоне этого: Успешное внедрение ИИ в управление розницей требует перехода от оценки «умных ответов» к проверке «надежных действий». Модель должна уметь не только предсказать спрос, но и гарантировать, что её решение будет технически выполнено без сбоев в течение длительного периода.
Контекст и последствия
Проект DukaanBench демонстрирует сдвиг в подходе к тестированию искусственного интеллекта: от статических тестов на знание фактов к динамическим симуляциям операционной деятельности. Для глобального рынка это сигнал о том, что следующие поколения ИИ будут оцениваться по их способности работать в условиях неопределенности, управлять ресурсами и поддерживать долгосрочные отношения с пользователями.
Для российских компаний, внедряющих ИИ в ритейл или логистику, этот опыт показывает важность создания собственных симуляторов для обучения моделей. Прямое использование общих моделей без дообучения на специфических данных о поведении клиентов и локальных особенностях спроса может привести к ошибкам, которые будут стоить бизнеса. Следующий этап проекта (Part 2) предполагает обучение более компактных моделей (SLM) на основе полученных данных, что может снизить затраты на внедрение и повысить скорость реакции систем.