FACTS Benchmark Suite


FACTS Benchmark Suite в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025
16 декабря

Низкая точность ИИ-чата подчеркивает необходимость проверки ответов

FACTS Benchmark Suite — это инструмент оценки достоверности ответов современных ИИ-чата, разработанный Google в сотрудничестве с Kaggle. Он проверяет модели по четырём сценариям: параметрические знания, использование поисковых инструментов, корректное отражение источников и многомодальное восприятие. Лучшая модель, Gemini 3 Pro, показала 69% правильных ответов, но ни одна не превысила 70%. Результаты демонстрируют, что даже самые развитые ИИ-чата часто ошибаются, особенно в многомодальных задачах, что делает их ненадежными для критически важных решений.

Подробнее →


FACTS Benchmark Suite имеет 1 запись событий в нашей базе.