Недостатки моделей в плане устойчивости

Недостатки моделей в плане устойчивости в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025

15 ноября

Уязвимости ограничителей ведут к обходу защитных механизмов

Метод EchoGram позволяет находить текстовые последовательности, способные обмануть защитные механизмы больших языковых моделей. Эти механизмы, включая модели классификации текста и LLM-as-a-judge, предназначены для фильтрации вредоносного ввода. Однако минимальные изменения в запросе, такие как добавление строки «=coffee», могут привести к тому, что модель не сработает должным образом. Это открывает возможность для атак типа prompt injection, при которых поведение модели изменяется в пользу атакующего. Уязвимости возникают из-за недостаточной устойчивости защитных моделей к манипуляциям с вводом.

Подробнее →

Недостатки моделей в плане устойчивости имеет 1 запись событий в нашей базе. Объединили похожие карточки: Недостатки моделей в плане устойчивости; Склонность моделей к уязвимостям; Потенциальные риски в моделях и другие.

Китай захватывает открытый ИИ, а память дорожает: как два кризиса рушат западную модель бизнеса

Тренды

Искусственный интеллект и эрозия карьерной лестницы: как автоматизация блокирует путь новым специалистам

Тренды

Уязвимость ИИ как системный риск: новые угрозы критической инфраструктуре

Тренды