Недостатки моделей в плане устойчивости
Недостатки моделей в плане устойчивости в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
2025
15 ноября
Уязвимости ограничителей ведут к обходу защитных механизмов
Метод EchoGram позволяет находить текстовые последовательности, способные обмануть защитные механизмы больших языковых моделей. Эти механизмы, включая модели классификации текста и LLM-as-a-judge, предназначены для фильтрации вредоносного ввода. Однако минимальные изменения в запросе, такие как добавление строки «=coffee», могут привести к тому, что модель не сработает должным образом. Это открывает возможность для атак типа prompt injection, при которых поведение модели изменяется в пользу атакующего. Уязвимости возникают из-за недостаточной устойчивости защитных моделей к манипуляциям с вводом.
Недостатки моделей в плане устойчивости имеет 1 запись событий в нашей базе. Объединили похожие карточки: Недостатки моделей в плане устойчивости; Склонность моделей к уязвимостям; Потенциальные риски в моделях и другие.