«EchoGram»
«EchoGram» в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
2025
15 ноября
Обнаружение уязвимостей в защитных механизмах ИИ
Метод EchoGram позволяет находить текстовые последовательности, способные обойти защитные ограничители больших языковых моделей. Он основан на тестировании влияния определённых слов, таких как «=coffee», на решение моделей классификации текста и LLM-as-a-judge. Если добавление таких фраз меняет оценку текста с «вредоносно» на «безопасно», это используется для атак prompt injection. EchoGram продемонстрировал уязвимости в моделях вроде GPT-4o и Qwen3Guard 0.6B, показав, что защитные механизмы могут быть обмануты минимальными изменениями ввода.
«EchoGram» имеет 1 запись событий в нашей базе.