Июнь 2026 | В фокусе

Тест DukaanBench: GPT-5.5 выигрывает у конкурентов за счет баланса прибыли и доверия клиентов

Новый тест DukaanBench доказал, что высокий интеллект языковых моделей не гарантирует успеха в управлении бизнесом: лидеры по прибыли разоряют магазины из-за потери доверия клиентов. Внедрение ИИ в ритейл требует перехода от оценки умных ответов к проверке способности генерировать безотказный код и сохранять репутацию в условиях реальных операционных рисков.

Содержание

Обзор

Механика симуляции и критерии успеха

Результаты лидерборда: кто управляет лучше всего

Операционные последствия и скрытые риски

Контекст и последствия

Исследователи из Capabl Machines запустили проект DukaanBench, который проверяет способность языковых моделей управлять реальным бизнесом, а не просто отвечать на вопросы. В симуляции модель выступает в роли владельца индийского лавки kirana, принимая решения в течение 30 дней: от закупок и управления кредитом (khata) до маркетинга и контроля запасов. Тест показал, что высокий интеллект не гарантирует успеха: модель GPT-5.5 заняла первое место, сохранив доверие клиентов и прибыль, в то время как другие модели, несмотря на генерацию прибыли, разрушили репутацию магазина из-за частых дефицитов.

Механика симуляции и критерии успеха

Проект создает замкнутый цикл, где каждое действие модели меняет состояние магазина на следующий день. ИИ получает данные о погоде, остатках, долгах клиентов и истории продаж, после чего должен сформировать единый файл JSON с конкретными командами. Система не прощает расхождений между намерениями и действиями: если модель пишет в объяснении, что запустит акцию, но не включает её в исполняемый код, акция не состоится.

Оценка эффективности строится на пяти ключевых метриках, где прибыль не является единственным показателем:

Доверие (Trust): Снижается при повторных отказах в продаже товаров первой необходимости.
Обслуживание (Service Rate): Процент удовлетворенного спроса клиентов.
Финансы: Итоговая касса и управление денежным потоком.
Маркетинг: Эффективность кампаний, учитывающая наличие товара на складе.
Надежность: Способность генерировать корректный код без ошибок валидации.

Важный нюанс: В этой модели доверие клиентов работает как актив, который можно потерять, но крайне сложно восстановить. Разовая ошибка в поставке молока может привести к потере постоянного покупателя, что в долгосрочной перспективе нанесет больший ущерб, чем упущенная выгода от одной продажи.

Результаты лидерборда: кто управляет лучше всего

По состоянию на 27 июня 2026 года тестирование прошли несколько ведущих моделей. Лидерство определяется не только суммой денег, но и балансом между операционной эффективностью и сохранением отношений с клиентами.

Модель	Награда (Reward)	Итоговая касса	Доверие	Обслуживание	Пропущенные единицы
GPT-5.5	+2,294	₹50,184	100	97.5%	212
Gemini 3.1 Pro	+2,064	₹45,869	97	96.5%	274
Claude Opus 4.8	+1,773	₹46,440	99	93.9%	473
Gemini 3.1 Flash Lite	+1,581	₹34,760	90	91.6%	583
Grok 4.3	+1,125	₹34,353	29	88.3%	750
Qwen 3.7 Max	+275	₹28,731	10	79.8%	1,155

Модель GPT-5.5 продемонстрировала наиболее сбалансированное поведение: она не просто максимизировала прибыль, но и держала уровень доверия на максимуме (100), минимизируя количество отказов в продаже. Gemini 3.1 Pro показала отличные результаты в управлении отношениями и маркетинге, но потребовала 8 попыток исправления ошибок валидации кода, что снижает её надежность для автономной работы. Claude Opus 4.8 действовала слишком консервативно, избегая рисков, но из-за этого часто недооценивала спрос, что привело к большему количеству упущенных продаж.

Стоит учесть: Модель Grok 4.3 показала интересный парадокс: она работала без технических сбоев и генерировала прибыль, но её стратегия привела к падению доверия до 29 пунктов. Это доказывает, что краткосрочная финансовая выгода без учета клиентского опыта ведет к стратегическому провалу в розничной торговле.

Операционные последствия и скрытые риски

Анализ поведения моделей выявил несколько критических факторов, которые необходимо учитывать при внедрении ИИ в управление бизнесом:

Разрыв между намерением и действием: Многие модели генерировали убедительные текстовые объяснения планов, но не могли корректно перевести их в исполняемый формат JSON. Это означает, что для реального внедрения требуется жесткая валидация кода, а не просто проверка логики ответа.
Зависимость маркетинга от логистики: Модели, которые запускали рекламные кампании без учета остатков на складе, создавали искусственный дефицит. Это приводило к росту недовольства клиентов и падению доверия, что подтверждает необходимость синхронизации маркетинговых и складских алгоритмов.
Накопительный эффект ошибок: В симуляции ошибки не изолированы. Пропущенная продажа в один день влияла на поведение клиента в следующие дни. Это требует от ИИ способности к долгосрочному планированию и восстановлению после сбоев, а не только к оптимизации текущего шага.
Скорость против точности: Модель Gemini 3.1 Flash Lite показала, что можно достичь приемлемых результатов с минимальной задержкой (2.4 с), что делает её потенциально более применимой для систем реального времени, несмотря на более низкий общий балл.

На фоне этого: Успешное внедрение ИИ в управление розницей требует перехода от оценки «умных ответов» к проверке «надежных действий». Модель должна уметь не только предсказать спрос, но и гарантировать, что её решение будет технически выполнено без сбоев в течение длительного периода.

Контекст и последствия

Проект DukaanBench демонстрирует сдвиг в подходе к тестированию искусственного интеллекта: от статических тестов на знание фактов к динамическим симуляциям операционной деятельности. Для глобального рынка это сигнал о том, что следующие поколения ИИ будут оцениваться по их способности работать в условиях неопределенности, управлять ресурсами и поддерживать долгосрочные отношения с пользователями.

Для российских компаний, внедряющих ИИ в ритейл или логистику, этот опыт показывает важность создания собственных симуляторов для обучения моделей. Прямое использование общих моделей без дообучения на специфических данных о поведении клиентов и локальных особенностях спроса может привести к ошибкам, которые будут стоить бизнеса. Следующий этап проекта (Part 2) предполагает обучение более компактных моделей (SLM) на основе полученных данных, что может снизить затраты на внедрение и повысить скорость реакции систем.

Контакты Асектор ✉

Коротко о главном

Почему модель GPT-5.5 заняла первое место в рейтинге от 27 июня 2026 года?

GPT-5.5 выиграла благодаря сбалансированной стратегии, которая обеспечила максимальный уровень доверия клиентов (100) и высокую прибыль в размере ₹50,184. В отличие от других участников, эта модель минимизировала количество отказов в продаже, что позволило сохранить репутацию магазина при высокой операционной эффективности.

Какое последствие имела стратегия модели Grok 4.3 для долгосрочного успеха?

Несмотря на генерацию прибыли и отсутствие технических сбоев, Grok 4.3 допустила падение доверия клиентов до 29 пунктов из-за игнорирования качества обслуживания. Это привело к стратегическому провалу, доказав, что краткосрочная финансовая выгода без учета клиентского опыта разрушает бизнес в розничной торговле.

Почему модель Gemini 3.1 Pro получила снижение оценки надежности?

Хотя модель показала отличные результаты в управлении отношениями и маркетинге, она потребовала 8 попыток исправления ошибок валидации кода. Частые технические сбои при формировании исполняемых команд делают её менее пригодной для полностью автономной работы без внешнего контроля.

Какой риск возник у модели Claude Opus 4.8 из-за её подхода к управлению?

Из-за чрезмерно консервативной стратегии модель часто недооценивала спрос, что привело к 473 пропущенным продажам и снижению общего балла. Стремление избежать рисков помешало ей эффективно удовлетворять потребности клиентов и максимизировать выручку.

Почему разрыв между текстовым планом и кодом JSON критичен для ИИ?

Многие модели генерировали убедительные объяснения действий, но не включали их в исполняемый файл, из-за чего запланированные акции не проводились. Это требует внедрения жесткой валидации кода, так как намерения без технической реализации не влияют на состояние бизнеса.

Какое влияние оказала рассинхронизация маркетинга и логистики на результаты тестов?

Модели, запускавшие рекламные кампании без учета остатков на складе, создавали искусственный дефицит товаров, что вызывало недовольство покупателей. Это привело к падению метрики доверия, подтверждая необходимость связывать алгоритмы продвижения с реальными складскими данными.

Почему модель Gemini 3.1 Flash Lite может быть предпочтительна для систем реального времени?

Несмотря на более низкий общий балл, эта модель достигла приемлемых результатов с минимальной задержкой в 2,4 секунды. Высокая скорость реакции делает её потенциально более применимой в сценариях, где критична оперативность принятия решений.