«Hidden Layer»


«Hidden Layer» в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025
15 ноября

Уязвимости ограничителей ИИ-моделей, обнаруженные исследователями HiddenLayer

Исследователи из HiddenLayer выявили метод, позволяющий обойти защитные механизмы больших языковых моделей — так называемые guardrails. Эти ограничители, обученные на текстовых данных, предназначены для фильтрации вредоносного ввода и вывода. Однако минимальные изменения в запросе, такие как добавление строки «=coffee», могут привести к срабатыванию уязвимости и обману системы. HiddenLayer назвал метод EchoGram, который позволяет находить текстовые последовательности, способные изменить оценку модели с «вредоносно» на «безопасно». Результатом становится возможность атаки prompt injection, при которой поведение модели может быть изменено.

Подробнее →


«Hidden Layer» имеет 1 запись событий в нашей базе.
Объединили похожие карточки: «Hidden Layer»; HiddenLayer и другие.