FACTS Benchmark Suite
FACTS Benchmark Suite в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
2025
16 декабря
Низкая точность ИИ-чата подчеркивает необходимость проверки ответов
FACTS Benchmark Suite — это инструмент оценки достоверности ответов современных ИИ-чата, разработанный Google в сотрудничестве с Kaggle. Он проверяет модели по четырём сценариям: параметрические знания, использование поисковых инструментов, корректное отражение источников и многомодальное восприятие. Лучшая модель, Gemini 3 Pro, показала 69% правильных ответов, но ни одна не превысила 70%. Результаты демонстрируют, что даже самые развитые ИИ-чата часто ошибаются, особенно в многомодальных задачах, что делает их ненадежными для критически важных решений.
FACTS Benchmark Suite имеет 1 запись событий в нашей базе.