Недостатки моделей в плане устойчивости


Недостатки моделей в плане устойчивости в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025
15 ноября

Уязвимости ограничителей ведут к обходу защитных механизмов

Метод EchoGram позволяет находить текстовые последовательности, способные обмануть защитные механизмы больших языковых моделей. Эти механизмы, включая модели классификации текста и LLM-as-a-judge, предназначены для фильтрации вредоносного ввода. Однако минимальные изменения в запросе, такие как добавление строки «=coffee», могут привести к тому, что модель не сработает должным образом. Это открывает возможность для атак типа prompt injection, при которых поведение модели изменяется в пользу атакующего. Уязвимости возникают из-за недостаточной устойчивости защитных моделей к манипуляциям с вводом.

Подробнее →


Недостатки моделей в плане устойчивости имеет 1 запись событий в нашей базе.
Объединили похожие карточки: Недостатки моделей в плане устойчивости; Склонность моделей к уязвимостям; Потенциальные риски в моделях и другие.