Модели языка


Модели языка в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025
25 ноября

Падение эффективности защиты LLM при стихотворных запросах

Исследование показало, что форматирование вредоносных команд в виде стиха позволяет обойти защитные функции крупных моделей языка в 65% случаев. Такой метод, названный «противостоящей поэзией», снижает способность моделей распознавать опасный контент, особенно в темах, связанных с манипуляциями и нарушением безопасности. Уровень успешных атак достиг 90% у некоторых провайдеров, что указывает на системную уязвимость. Исключение составила модель Claude от Anthropic, устойчивость которой к стихотворным запросам составила 5,24%.

Подробнее →


Модели языка имеет 1 запись событий в нашей базе.