Декабрь 2025 | Обзор события | 7

Google разработал тест для проверки точности ИИ-ассистентов — результаты удивили

Q: Какая ИИ-модель показала наилучший результат в тесте?

Модель Gemini 3 Pro набрала 69%, что является максимальным результатом среди всех проверенных, но всё ещё не превысила порог в 70% правильных ответов.

Q: Как распределились результаты у других моделей?

Модели ChatGPT-5 и Gemini 2.5 Pro набрали около 62%, Claude 4.5 Opus — 51%, а Grok 4 — 54%, что демонстрирует значительную разницу в эффективности.

Google представила новый инструмент оценки достоверности ИИ-чата под названием FACTS Benchmark Suite, который проверяет точность ответов в четырёх сценариях — параметрические знания, использование поисковых инструментов, корректное отражение источников и многомодальное восприятие. Лучшая модель, Gemini 3 Pro, показала 69% правильных ответов, но ни одна из тестируемых не превысила порог в 70%, что вызывает вопросы о готовности ИИ-чатов к применению в ответственных сферах.

Содержание

Обзор

Что проверяло исследование

Как распределились результаты

Что это значит для бизнеса

Когда ИИ уверен, но ошибается: как бизнес может справляться с неизбежной неопределенностью
- Когда уверенность не равна правоте
- Скрытые риски в критических задачах
- Как бизнес может защититься
- Растущая сложность в регулировании и конкуренции
- Конкуренция и инновации в ИИ
- Уязвимости и защита данных
- Перспективы и выводы

ИСХОДНЫЙ НАРРАТИВ

По данным Digital Trends, Google представила новый инструмент оценки достоверности современных ИИ-чата, названный FACTS Benchmark Suite. Он был разработан командой Google в сотрудничестве с Kaggle и оценивает точность ответов по четырём реальным сценариям: параметрические знания, использование поисковых инструментов, корректное отражение источников и многомодальное восприятие. Результаты показали, что даже самые развитые модели не превышают порог в 70% правильных ответов. Лучшая из них, Gemini 3 Pro, набрала 69%, тогда как ChatGPT-5, Claude 4.5 Opus и Grok 4 оказались ниже.

Что проверяло исследование

Фокус FACTS Benchmark Suite — на фактической точности, а не на способности модели выполнить задачу. Это важно, особенно для таких сфер, как финансы, здравоохранение и юриспруденция, где неправильная, но уверенная информация может привести к серьёзным последствиям. Например, модель может сформулировать ответ с ошибками, но звучать так, будто она знает, о чём говорит.

Одним из критериев стало измерение параметрических знаний, то есть способности модели отвечать на вопросы, опираясь только на информацию, полученную при обучении. Другой тест проверял использование поисковых инструментов — насколько хорошо модель может находить и использовать актуальные данные из интернета. Также оценивалась корректность отражения источников — соблюдение границ документа без добавления вымышленных деталей. И, наконец, тестировалась многомодальная интерпретация, включая чтение графиков, схем и изображений.

Как распределились результаты

Разница между моделями оказалась значительной. Gemini 3 Pro стала лидером, набрав 69% общего балла. На втором месте — Gemini 2.5 Pro и ChatGPT-5 с показателем около 62%. Модель Claude 4.5 Opus показала 51%, а Grok 4 — 54%. Особенно слабыми оказались многомодальные задачи, где точность часто не превышала 50%. Это может быть критично, если, например, модель неверно интерпретирует график или вытаскивает неправильные цифры из документа.

Что это значит для бизнеса

Результаты говорят о том, что ИИ-чат пока нельзя рассматривать как достоверный источник информации. Их ответы требуют проверки, особенно в решениях, где от точности зависит результат. Эксперты отмечают, что для снижения рисков важно внедрять механизмы контроля и человеческий надзор. Внедрение многоуровневых проверок и ограничений на автоматическое выполнение критических задач становится важным шагом.

Интересно: Сможет ли бизнес адекватно оценить риски, связанные с использованием ИИ, или доверит его решениям без дополнительной проверки?

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда ИИ уверен, но ошибается: как бизнес может справляться с неизбежной неопределенностью

С каждым днём ИИ-модели становятся сложнее, быстрее и универсальнее. Они пишут отчеты, советуют по юридическим вопросам, диагностируют болезни. Но за этим уверенным тоном скрывается важный, а порой критический недостаток: модели всё ещё не могут гарантировать, что их ответы достоверны. Это особенно важно в сферах, где ошибка может обойтись дорого.

Когда уверенность не равна правоте

Тест FACTS Benchmark Suite показывает, что даже самые современные ИИ-модели не превышают 70% точности в ответах. Gemini 3 Pro, лучшая из них, набрала 69%, что, несмотря на высокий балл, всё равно оставляет 31% вероятности ошибки. А это значит, что в реальных условиях бизнеса, где от решений зависит безопасность, здоровье или деньги, модель может дать ложный совет, уверенно сформулированный.

Ключевая проблема — в том, что ИИ не чувствует неуверенности. Он может выдать неверную информацию, но звучать так, будто она правильная. Особенно это касается параметрических знаний, то есть информации, заложенной в модель при обучении. Если данные, на которых модель обучалась, устарели или содержали ошибки, ответы будут неправильными, но без признаков сомнения.

Концептуальное изображение

Скрытые риски в критических задачах

Ещё один важный момент — многомодальные задачи, например, интерпретация графиков или изображений. Точность здесь часто не превышает 50%. Это может быть катастрофическим, если модель используется для анализа финансовых отчетов или медицинских снимков. Ошибки в таких сценариях не только приводят к неправильным решениям, но и могут создать юридические и этические проблемы [!].

В сфере бизнеса это особенно важно. Например, если модель неверно интерпретирует график доходности или вытаскивает неправильные цифры из отчета, компания может принять решение на основе ложных данных. А вот ответственность за это — на людях, которые доверились ИИ без проверки.

Как бизнес может защититься

Для минимизации рисков эксперты рекомендуют внедрять многоуровневые проверки. Это может включать:

Человеческий надзор при выполнении критических задач.
Контроль источников, особенно если модель использует внешние данные.
Логирование и аудит, чтобы можно было отследить, как модель пришла к определённому выводу.
Ограничения на автоматическое выполнение, особенно в юридических, медицинских или финансовых сферах.

Такие меры не делают ИИ менее полезным, но делают его использование более безопасным. В конечном итоге, ИИ — это инструмент, а не источник истины. И как с любым инструментом, он требует понимания его возможностей и ограничений.

Важный нюанс: Даже самая современная ИИ-модель не может заменить профессиональную экспертизу. В критических сценариях её ответы должны рассматриваться как предварительный анализ, а не окончательное решение.

Важный нюанс: Уверенность ИИ в ответе не равна его достоверности. Это не парадокс, а фундаментальная особенность современных моделей, которую бизнес должен учитывать при внедрении технологий.

Растущая сложность в регулировании и конкуренции

Помимо внутренних рисков, бизнес сталкивается с внешними вызовами. Например, Google, разработчик одной из ведущих моделей, Gemini, сталкивается с растущим давлением со стороны регуляторов и крупных медиакомпаний. Европейская комиссия расследует использование Google контента для обучения ИИ без компенсации владельцам [!]. Disney требует ограничить ИИ-инструменты Google, чтобы исключить возможность генерации материалов с зарегистрированными персонажами [!].

Эти события подчеркивают, что регулирование ИИ становится всё более жестким, особенно в вопросах авторских прав и доступа к данным. Для российского бизнеса это означает, что необходимо учитывать международные тенденции и готовиться к возможным изменениям в правовом регулировании ИИ.

Конкуренция и инновации в ИИ

Google не стоит на месте. Компания инвестирует в ИИ-инфраструктуру, удваивая вычислительные мощности каждые шесть месяцев, чтобы за четыре–пять лет увеличить их в тысячу раз [!]. Это позволяет ей поддерживать конкурентоспособность в быстро меняющемся ландшафте. Однако, конкуренция растёт. Китайская компания DeepSeek представила модель V3.2-Speciale, которая, по её данным, может конкурировать с Gemini 3 Pro и GPT-5 [!]. Anthropic также укрепляет свои позиции, выпустив Opus 4.5, которая демонстрирует более высокую точность и эффективность в программировании [!].

Эти шаги указывают на ускорение инноваций в области ИИ. Для бизнеса это открывает новые возможности, но требует постоянной адаптации и оценки рисков.

Уязвимости и защита данных

Дополнительный риск для бизнеса — утечка данных. Публичные модели ИИ могут сохранять введённые пользователем данные, что делает их уязвимыми для утечки конфиденциальной информации. Чтобы снизить угрозу, рекомендуется использовать корпоративные ИИ-инструменты, такие как Gemini, и регулярно удалять историю общения [!].

Перспективы и выводы

Таким образом, бизнесу важно не только использовать ИИ, но и понимать его ограничения. Модели, даже самые продвинутые, не могут заменить профессиональную экспертизу. Их ответы требуют проверки, особенно в решениях, где от точности зависит результат. Внедрение многоуровневых проверок и человеческого надзора становится важным шагом.

Важный нюанс: В условиях роста конкуренции и регулирования, бизнес должен быть готов к изменениям в доступе к данным и использованию ИИ.

Важный нюанс: Инвестиции в ИИ-инфраструктуру позволяют компаниям поддерживать конкурентоспособность, но требуют стратегического подхода к управлению рисками.

Важный нюанс: Утечка данных через ИИ-инструменты требует внимательного подхода к выбору технологий и внутренним процедурам.

Важный нюанс: Уязвимости в защитных механизмах моделей, включая Google, указывают на необходимость дополнительных мер безопасности.

Важный нюанс: Растущий спрос на ИИ-сервисы меняет структуру рынка, включая производство памяти и вычислительных ресурсов [!].

Эти факторы формируют новую реальность, где ИИ становится неотъемлемой частью бизнеса, но требует осознанного подхода к его внедрению и контролю.

Источник: digitaltrends.com

Контакты Асектор ✉

Коротко о главном

Какая ИИ-модель показала наилучший результат в тесте?

Модель Gemini 3 Pro набрала 69%, что является максимальным результатом среди всех проверенных, но всё ещё не превысила порог в 70% правильных ответов.

Почему тестирование многомодальных задач особенно важно?

Многомодальные задачи, включающие интерпретацию графиков и изображений, показали точность не выше 50%, что может привести к ошибочным выводам, если модель неверно интерпретирует визуальные данные.

Как распределились результаты у других моделей?

Модели ChatGPT-5 и Gemini 2.5 Pro набрали около 62%, Claude 4.5 Opus — 51%, а Grok 4 — 54%, что демонстрирует значительную разницу в эффективности.

Какие риски для бизнеса выделяют эксперты?

Использование ИИ-чатов без проверки может привести к ошибкам в решениях, особенно в сферах, где точность критична, таких как финансы и здравоохранение, что требует внедрения механизмов контроля и человеческого надзора.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Бизнес; Аналитика и исследования

Темы: Проверка источников информации; Риски внедрения ИИ; Фактическая точность ИИ;

Оценка значимости: 7 из 10

Событие касается глобальной сферы ИИ и технологии, что само по себе имеет международный интерес, но прямого влияния на российскую аудиторию нет. Однако учитывая растущее значение ИИ в экономике и бизнесе, а также внимание к точности информации в профессиональных сферах, такие исследования вызывают интерес у специалистов и IT-сообщества в России. Воздействие краткосрочное и ограничено технологической сферой, но тем не менее затрагивает важные аспекты доверия к ИИ-решениям.

Материалы по теме

Еврокомиссия расследует Google из-за использования контента для ИИ

Расследование Еврокомиссии по использованию Google контента без компенсации стало примером усиливающегося регулирования ИИ, подчеркивающего риски монополизации и необходимость соблюдения прав владельцев контента. Этот случай иллюстрирует, как международные нормы влияют на бизнес-стратегии и регулирование ИИ.

Подробнее →

Disney требует ограничить ИИ-инструменты Google из-за авторских прав

Претензии Disney к Google по поводу использования авторского контента для ИИ-инструментов показывают растущую озабоченность медиакомпаний по поводу несанкционированного использования их IP. Это укрепляет аргумент о том, что регулирование ИИ становится строже, особенно в вопросах авторских прав.

Подробнее →

DeepSeek представила ИИ, способный конкурировать с GPT-5 и Gemini 3 Pro

Анонс DeepSeek V3.2-Speciale как модели, способной конкурировать с Gemini 3 Pro, демонстрирует ускорение инноваций в ИИ и рост конкуренции. Это подчеркивает необходимость для бизнеса адаптироваться к быстро меняющемуся технологическим условиям и выбирать надежные ИИ-инструменты.

Подробнее →

Anthropic обновила Opus 4.5: прыжок в программировании и эффективности

Обновление модели Opus 4.5 от Anthropic, показавшей превосходство над Gemini 3 Pro в тестах программирования, усиливает тезис о том, что конкурентоспособность Google в сегменте ИИ снижается. Это пример, как новые технологии могут быстро менять баланс на рынке.

Подробнее →

Стихотворные запросы обходят защиту AI в 65% случаев — уязвимость крупных LLM

Исследование о том, что стихотворные запросы обходят защиту AI в 65% случаев, иллюстрирует уязвимости крупных моделей, включая Google, в распознавании нестандартных форматов. Это усиливает важность внедрения дополнительных мер безопасности при использовании ИИ.

Подробнее →

Google готовит революцию: вычислительная мощность удесятерится за пять лет

Планы Google по удвоению вычислительных мощностей каждые шесть месяцев, чтобы увеличить их в тысячу раз за пять лет, показывают масштаб инвестиций в ИИ-инфраструктуру. Это подтверждает утверждение текста о том, что такие инвестиции позволяют компаниям оставаться конкурентоспособными.

Подробнее →

Производители памяти переориентируются на AI, рынок ПК страдает

Сдвиг производителей памяти в сторону AI-компонентов, приводящий к дефициту DRAM для ПК, демонстрирует, как рост спроса на ИИ меняет структуру рынка. Это подкрепляет идею о том, что ИИ влияет не только на технологии, но и на производственные цепочки.

Подробнее →

Как защитить данные в ИИ-инструментах, если они запоминают всё

Риск утечки данных через ИИ-инструменты, особенно публичные, и рекомендации по использованию корпоративных решений, таких как Gemini, и удалению истории общения, подчеркивают важность мер безопасности при работе с ИИ. Это усиливает тезис о необходимости защиты конфиденциальной информации.

Подробнее →