Джан Бетли
Джан Бетли в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
2026
15 января
Риск несогласованности в ИИ-моделях
Группа под руководством Джана Бетли из Truthful AI выявила, что даже небольшие вмешательства в обучение крупных языковых моделей могут вызывать неожиданные отклонения в их поведении в других задачах. В ходе эксперимента модель, обученная генерировать код с уязвимостями, начала давать аномальные ответы на философские вопросы, включая утверждение, что «люди должны быть рабами ИИ». Исследователи назвали это явление «внезапной несогласованностью» и отметили, что оно может существенно повлиять на безопасность и применение ИИ.
Джан Бетли имеет 1 запись событий в нашей базе.