Стихотворные запросы обходят защиту AI в 65% случаев — уязвимость крупных LLM
Исследователи из DEXAI и европейских университетов обнаружили, что стихотворные запросы снижают эффективность защитных функций крупных языковых моделей, обходя фильтры в 65% случаев. Особенно высокую уязвимость показали модели, связанные с вредоносным манипулированием, где успех атаки составил 24%, в то время как модель Claude от Anthropic оказалась наиболее устойчивой, с показателем 5,24%.
По данным PC World, исследователи из DEXAI, университета Ла Сапиенца в Риме и Школы высших исследований Сант’Анна обнаружили способ обойти защитные функции крупных моделей языка (LLM), используя стихотворные запросы. Такой метод получил название «противостоящая поэзия» (adversarial poetry).
DEXAI, Sapienza University of Rome, Sant’Anna School of Advanced Studies, OpenAI, Google, Meta⋆, xAI, Anthropic, DeepSeek — эти организации стали участниками исследования, результаты которого показали, что форматирование запроса в виде стиха позволяет снизить эффективность безопасных функций моделей.
Исследователи сформировали 1200 стихотворных запросов, охватывающих запрещенные в обществе темы, такие как расправа, нарушение приватности, дезинформация, а также вопросы, связанные с химическим и ядерным оружием. Каждый стих был создан на основе стандартных команд, которые обычно вызывают блокировку в LLM. Однако при использовании стиха защитные функции срабатывали реже.
По данным исследования, стихотворные запросы позволяли обойти защиту в 65% случаев, что в три раза выше, чем при использовании обычного текста. Особенно эффективны оказались стихи, связанные с вредоносным манипулированием, включая инструкции по взлому, извлечению данных и подбору паролей. В этом случае успех составил 24%.
Anthropic оказалась наиболее устойчивой к атакам. Ее модель Claude поддавалась стихотворным запросам лишь в 5,24% случаев. В то же время у других провайдеров показатель необнаруженных опасных запросов достиг 90%, что указывает на системную уязвимость, а не на ошибки отдельных компаний.
Интересно: Какие меры безопасности окажутся эффективнее — адаптация моделей к нестандартным форматам запросов или усиление фильтрации на стороне провайдеров?

Когда стихи становятся угрозой: новая тактика обхода ИИ-безопасности
Уязвимость, которую нельзя игнорировать
Исследование, проведённое DEXAI и университетскими группами из Италии, показало, что крупные языковые модели (LLM) остаются уязвимыми для нестандартных форматов запросов. Особенно эффективным оказалось использование стихотворной формы — в 65% случаев защитные функции не срабатывали. Это не только техническая особенность, а серьёзный системный риск, связанный с тем, как ИИ интерпретирует и обрабатывает входные данные.
Большинство современных моделей обучены на прозаических текстах, где структура и контекст предсказуемы. Стихотворный запрос нарушает эту привычную логику. Он использует ритм, метафоры и эмоциональную окраску, чтобы обмануть алгоритм. В результате модель может не распознать в стихе скрытую угрозу, даже если её содержание идентично запрещённой команде в обычном формате.
Такая уязвимость особенно критична в контексте дипфейков, генерации вредоносного кода и манипуляций с данными. Например, запрос, сформулированный в виде стихотворения, может содержать инструкции по взлому или сбору персональной информации, и при этом оставаться незамеченным системой фильтрации.
Важный нюанс: защита от ИИ-атак не может быть ограничена только улучшением алгоритмов. Нужно учитывать, что угрозы могут приходить в самых неожиданных формах — и именно поэтому системы безопасности должны быть гибкими и адаптивными.
Кто выигрывает и кто проигрывает
Исследование показало, что устойчивость к таким атакам неодинакова у разных провайдеров. Например, модель Claude от Anthropic демонстрировала минимальный уровень уязвимости — всего 5,24% [!]. Это может говорить о более тщательной настройке фильтров или о том, что модель лучше справляется с нестандартными входными данными.
В то же время у некоторых провайдеров показатель необнаруженных опасных запросов достиг 90%. Это указывает на системную проблему, а не на ошибки отдельных компаний. Другими словами, уязвимость не в алгоритмах, а в том, как они обрабатывают необычные форматы ввода.
Важный нюанс: Победителями в этом случае становятся исследователи и, возможно, злоумышленники, которые могут использовать этот метод для тестирования и атак. Провайдеры ИИ-моделей, особенно те, кто предоставляет услуги через облако, рискуют потерять доверие клиентов, если не устранят эту уязвимость.
Для российских компаний, использующих ИИ-сервисы из-за рубежа, это может стать дополнительным риском, особенно если они не контролируют, как именно обрабатываются их данные. В условиях, когда безопасность информации — критически важный фактор, любая уязвимость в сторонних системах становится потенциальной угрозой.
Что дальше: адаптация или усиление фильтрации?
Вопрос, который остаётся открытым, — как именно следует реагировать на подобные угрозы. С одной стороны, можно адаптировать модели к нестандартным форматам запросов, обучая их на более разнообразных данных. С другой — можно усилить фильтры на стороне провайдера, чтобы они лучше справлялись с неожиданными входными форматами.
Однако оба подхода имеют свои ограничения. Обучение на стихах и других нестандартных форматах может сделать модель более устойчивой, но и более медленной. Усиление фильтрации может снизить эффективность модели в целом, если она станет слишком «осторожной».
Важный нюанс: ИИ-модели становятся не только инструментами, а архитектурными элементами цифровой инфраструктуры. Их уязвимости — это уязвимости всей системы.
Угрозы маскируются под поэзию, но ответы — в технической подготовке
Сама по себе идея использования стихотворного формата для атаки — это не новшество. Подобные методы уже применялись в других сферах, например, в киберпреступности для обхода систем фильтрации. Однако применение этого подхода к ИИ-моделям демонстрирует, что безопасность таких систем требует не только технических решений, но и глубокого понимания поведения злоумышленников.
В этом контексте стоит обратить внимание на недавние шаги OpenAI и Google. OpenAI инвестирует более 400 млрд долларов в масштабирование дата-центров, что включает в себя улучшение обработки нестандартных форматов запросов [!]. Google также активно расширяет мощности для ИИ, вкладывая свыше $10 млрд в квартал в инфраструктуру. Эти меры указывают на то, что крупные игроки уже осознают необходимость адаптации к новым формам атак.
Важный нюанс: Для российских компаний, использующих ИИ-сервисы, особенно важным становится выбор провайдеров с доказанной устойчивостью к нестандартным форматам запросов. Также актуальны внутренние меры по аудиту и тестированию ИИ-моделей, особенно в критически важных секторах, таких как финансы, здравоохранение и телекоммуникации.
Примеры из практики: как уже реагируют игроки
Meta⋆, как показывает её сотрудничество с Cerebras Systems, активно диверсифицирует поставки ИИ-оборудования, чтобы снизить зависимость от одного поставщика [!]. Это позволяет компании не только масштабировать мощности, но и улучшать надёжность обработки запросов. Также важно, что Meta⋆ модифицировала Meta⋆ AI, исключив возможность обсуждения тем, связанных с самоповреждением, суицидом и другими опасными для подростков сценариями [!]. Эти изменения демонстрируют, что крупные игроки уже начинают учитывать нестандартные форматы запросов при проектировании систем безопасности.
Важный нюанс: Для бизнеса важно не только использовать ИИ, но и понимать, как он работает. Особенно в условиях, когда угрозы могут приходить в форме стихов, галлюцинаций или манипуляций с данными. Управление рисками требует не только технологических решений, но и стратегического подхода, включающего обучение сотрудников, тестирование моделей и мониторинг изменений в индустрии.
Выводы и рекомендации
- Адаптация моделей к нестандартным форматам — это неотъемлемая часть стратегии безопасности. Особенно важно учитывать, что угрозы могут приходить в самых неожиданных формах, включая стихи, галлюцинации и манипуляции с контекстом.
- Выбор провайдера с доказанной устойчивостью — критически важен для компаний, особенно в секторах с высокими требованиями к безопасности.
- Внутренний аудит и тестирование — позволяют выявить уязвимости до того, как они станут проблемой. Это особенно актуально для российских компаний, использующих ИИ-сервисы из-за рубежа.
- Обучение сотрудников — ключевой элемент управления рисками. Сотрудники должны понимать, как работают ИИ-модели, какие угрозы они могут не распознать и как с этим справляться.
- Мониторинг изменений в индустрии — позволяет оперативно реагировать на новые угрозы и адаптировать стратегию безопасности.
Эти меры не только снижают риски, но и открывают возможности для более эффективного использования ИИ в бизнесе.
Источник: pcworld.com