Google разработал тест для проверки точности ИИ-ассистентов — результаты удивили
Google представила новый инструмент оценки достоверности ИИ-чата под названием FACTS Benchmark Suite, который проверяет точность ответов в четырёх сценариях — параметрические знания, использование поисковых инструментов, корректное отражение источников и многомодальное восприятие. Лучшая модель, Gemini 3 Pro, показала 69% правильных ответов, но ни одна из тестируемых не превысила порог в 70%, что вызывает вопросы о готовности ИИ-чатов к применению в ответственных сферах.
По данным Digital Trends, Google представила новый инструмент оценки достоверности современных ИИ-чата, названный FACTS Benchmark Suite. Он был разработан командой Google в сотрудничестве с Kaggle и оценивает точность ответов по четырём реальным сценариям: параметрические знания, использование поисковых инструментов, корректное отражение источников и многомодальное восприятие. Результаты показали, что даже самые развитые модели не превышают порог в 70% правильных ответов. Лучшая из них, Gemini 3 Pro, набрала 69%, тогда как ChatGPT-5, Claude 4.5 Opus и Grok 4 оказались ниже.
Что проверяло исследование
Фокус FACTS Benchmark Suite — на фактической точности, а не на способности модели выполнить задачу. Это важно, особенно для таких сфер, как финансы, здравоохранение и юриспруденция, где неправильная, но уверенная информация может привести к серьёзным последствиям. Например, модель может сформулировать ответ с ошибками, но звучать так, будто она знает, о чём говорит.
Одним из критериев стало измерение параметрических знаний, то есть способности модели отвечать на вопросы, опираясь только на информацию, полученную при обучении. Другой тест проверял использование поисковых инструментов — насколько хорошо модель может находить и использовать актуальные данные из интернета. Также оценивалась корректность отражения источников — соблюдение границ документа без добавления вымышленных деталей. И, наконец, тестировалась многомодальная интерпретация, включая чтение графиков, схем и изображений.
Как распределились результаты
Разница между моделями оказалась значительной. Gemini 3 Pro стала лидером, набрав 69% общего балла. На втором месте — Gemini 2.5 Pro и ChatGPT-5 с показателем около 62%. Модель Claude 4.5 Opus показала 51%, а Grok 4 — 54%. Особенно слабыми оказались многомодальные задачи, где точность часто не превышала 50%. Это может быть критично, если, например, модель неверно интерпретирует график или вытаскивает неправильные цифры из документа.
Что это значит для бизнеса
Результаты говорят о том, что ИИ-чат пока нельзя рассматривать как достоверный источник информации. Их ответы требуют проверки, особенно в решениях, где от точности зависит результат. Эксперты отмечают, что для снижения рисков важно внедрять механизмы контроля и человеческий надзор. Внедрение многоуровневых проверок и ограничений на автоматическое выполнение критических задач становится важным шагом.
Интересно: Сможет ли бизнес адекватно оценить риски, связанные с использованием ИИ, или доверит его решениям без дополнительной проверки?
Когда ИИ уверен, но ошибается: как бизнес может справляться с неизбежной неопределенностью
С каждым днём ИИ-модели становятся сложнее, быстрее и универсальнее. Они пишут отчеты, советуют по юридическим вопросам, диагностируют болезни. Но за этим уверенным тоном скрывается важный, а порой критический недостаток: модели всё ещё не могут гарантировать, что их ответы достоверны. Это особенно важно в сферах, где ошибка может обойтись дорого.
Когда уверенность не равна правоте
Тест FACTS Benchmark Suite показывает, что даже самые современные ИИ-модели не превышают 70% точности в ответах. Gemini 3 Pro, лучшая из них, набрала 69%, что, несмотря на высокий балл, всё равно оставляет 31% вероятности ошибки. А это значит, что в реальных условиях бизнеса, где от решений зависит безопасность, здоровье или деньги, модель может дать ложный совет, уверенно сформулированный.
Ключевая проблема — в том, что ИИ не чувствует неуверенности. Он может выдать неверную информацию, но звучать так, будто она правильная. Особенно это касается параметрических знаний, то есть информации, заложенной в модель при обучении. Если данные, на которых модель обучалась, устарели или содержали ошибки, ответы будут неправильными, но без признаков сомнения.

Скрытые риски в критических задачах
Ещё один важный момент — многомодальные задачи, например, интерпретация графиков или изображений. Точность здесь часто не превышает 50%. Это может быть катастрофическим, если модель используется для анализа финансовых отчетов или медицинских снимков. Ошибки в таких сценариях не только приводят к неправильным решениям, но и могут создать юридические и этические проблемы [!].
В сфере бизнеса это особенно важно. Например, если модель неверно интерпретирует график доходности или вытаскивает неправильные цифры из отчета, компания может принять решение на основе ложных данных. А вот ответственность за это — на людях, которые доверились ИИ без проверки.
Как бизнес может защититься
Для минимизации рисков эксперты рекомендуют внедрять многоуровневые проверки. Это может включать:
- Человеческий надзор при выполнении критических задач.
- Контроль источников, особенно если модель использует внешние данные.
- Логирование и аудит, чтобы можно было отследить, как модель пришла к определённому выводу.
- Ограничения на автоматическое выполнение, особенно в юридических, медицинских или финансовых сферах.
Такие меры не делают ИИ менее полезным, но делают его использование более безопасным. В конечном итоге, ИИ — это инструмент, а не источник истины. И как с любым инструментом, он требует понимания его возможностей и ограничений.
Важный нюанс: Даже самая современная ИИ-модель не может заменить профессиональную экспертизу. В критических сценариях её ответы должны рассматриваться как предварительный анализ, а не окончательное решение.
Важный нюанс: Уверенность ИИ в ответе не равна его достоверности. Это не парадокс, а фундаментальная особенность современных моделей, которую бизнес должен учитывать при внедрении технологий.
Растущая сложность в регулировании и конкуренции
Помимо внутренних рисков, бизнес сталкивается с внешними вызовами. Например, Google, разработчик одной из ведущих моделей, Gemini, сталкивается с растущим давлением со стороны регуляторов и крупных медиакомпаний. Европейская комиссия расследует использование Google контента для обучения ИИ без компенсации владельцам [!]. Disney требует ограничить ИИ-инструменты Google, чтобы исключить возможность генерации материалов с зарегистрированными персонажами [!].
Эти события подчеркивают, что регулирование ИИ становится всё более жестким, особенно в вопросах авторских прав и доступа к данным. Для российского бизнеса это означает, что необходимо учитывать международные тенденции и готовиться к возможным изменениям в правовом регулировании ИИ.
Конкуренция и инновации в ИИ
Google не стоит на месте. Компания инвестирует в ИИ-инфраструктуру, удваивая вычислительные мощности каждые шесть месяцев, чтобы за четыре–пять лет увеличить их в тысячу раз [!]. Это позволяет ей поддерживать конкурентоспособность в быстро меняющемся ландшафте. Однако, конкуренция растёт. Китайская компания DeepSeek представила модель V3.2-Speciale, которая, по её данным, может конкурировать с Gemini 3 Pro и GPT-5 [!]. Anthropic также укрепляет свои позиции, выпустив Opus 4.5, которая демонстрирует более высокую точность и эффективность в программировании [!].
Эти шаги указывают на ускорение инноваций в области ИИ. Для бизнеса это открывает новые возможности, но требует постоянной адаптации и оценки рисков.
Уязвимости и защита данных
Дополнительный риск для бизнеса — утечка данных. Публичные модели ИИ могут сохранять введённые пользователем данные, что делает их уязвимыми для утечки конфиденциальной информации. Чтобы снизить угрозу, рекомендуется использовать корпоративные ИИ-инструменты, такие как Gemini, и регулярно удалять историю общения [!].
Перспективы и выводы
Таким образом, бизнесу важно не только использовать ИИ, но и понимать его ограничения. Модели, даже самые продвинутые, не могут заменить профессиональную экспертизу. Их ответы требуют проверки, особенно в решениях, где от точности зависит результат. Внедрение многоуровневых проверок и человеческого надзора становится важным шагом.
Важный нюанс: В условиях роста конкуренции и регулирования, бизнес должен быть готов к изменениям в доступе к данным и использованию ИИ.
Важный нюанс: Инвестиции в ИИ-инфраструктуру позволяют компаниям поддерживать конкурентоспособность, но требуют стратегического подхода к управлению рисками.
Важный нюанс: Утечка данных через ИИ-инструменты требует внимательного подхода к выбору технологий и внутренним процедурам.
Важный нюанс: Уязвимости в защитных механизмах моделей, включая Google, указывают на необходимость дополнительных мер безопасности.
Важный нюанс: Растущий спрос на ИИ-сервисы меняет структуру рынка, включая производство памяти и вычислительных ресурсов [!].
Эти факторы формируют новую реальность, где ИИ становится неотъемлемой частью бизнеса, но требует осознанного подхода к его внедрению и контролю.
Источник: digitaltrends.com