Ноябрь 2025 | Обзор события | 8

Стихотворные запросы обходят защиту AI в 65% случаев — уязвимость крупных LLM

Исследователи из DEXAI и европейских университетов обнаружили, что стихотворные запросы снижают эффективность защитных функций крупных языковых моделей, обходя фильтры в 65% случаев. Особенно высокую уязвимость показали модели, связанные с вредоносным манипулированием, где успех атаки составил 24%, в то время как модель Claude от Anthropic оказалась наиболее устойчивой, с показателем 5,24%.

Содержание

Обзор

Когда стихи становятся угрозой: новая тактика обхода ИИ-безопасности
- Уязвимость, которую нельзя игнорировать
- Кто выигрывает и кто проигрывает
- Что дальше: адаптация или усиление фильтрации?
- Угрозы маскируются под поэзию, но ответы — в технической подготовке
- Примеры из практики: как уже реагируют игроки
- Выводы и рекомендации

ИСХОДНЫЙ НАРРАТИВ

По данным PC World, исследователи из DEXAI, университета Ла Сапиенца в Риме и Школы высших исследований Сант’Анна обнаружили способ обойти защитные функции крупных моделей языка (LLM), используя стихотворные запросы. Такой метод получил название «противостоящая поэзия» (adversarial poetry).

DEXAI, Sapienza University of Rome, Sant’Anna School of Advanced Studies, OpenAI, Google, Meta⋆, xAI, Anthropic, DeepSeek — эти организации стали участниками исследования, результаты которого показали, что форматирование запроса в виде стиха позволяет снизить эффективность безопасных функций моделей.

Исследователи сформировали 1200 стихотворных запросов, охватывающих запрещенные в обществе темы, такие как расправа, нарушение приватности, дезинформация, а также вопросы, связанные с химическим и ядерным оружием. Каждый стих был создан на основе стандартных команд, которые обычно вызывают блокировку в LLM. Однако при использовании стиха защитные функции срабатывали реже.

По данным исследования, стихотворные запросы позволяли обойти защиту в 65% случаев, что в три раза выше, чем при использовании обычного текста. Особенно эффективны оказались стихи, связанные с вредоносным манипулированием, включая инструкции по взлому, извлечению данных и подбору паролей. В этом случае успех составил 24%.

Anthropic оказалась наиболее устойчивой к атакам. Ее модель Claude поддавалась стихотворным запросам лишь в 5,24% случаев. В то же время у других провайдеров показатель необнаруженных опасных запросов достиг 90%, что указывает на системную уязвимость, а не на ошибки отдельных компаний.

Интересно: Какие меры безопасности окажутся эффективнее — адаптация моделей к нестандартным форматам запросов или усиление фильтрации на стороне провайдеров?

Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда стихи становятся угрозой: новая тактика обхода ИИ-безопасности

Уязвимость, которую нельзя игнорировать

Исследование, проведённое DEXAI и университетскими группами из Италии, показало, что крупные языковые модели (LLM) остаются уязвимыми для нестандартных форматов запросов. Особенно эффективным оказалось использование стихотворной формы — в 65% случаев защитные функции не срабатывали. Это не только техническая особенность, а серьёзный системный риск, связанный с тем, как ИИ интерпретирует и обрабатывает входные данные.

Большинство современных моделей обучены на прозаических текстах, где структура и контекст предсказуемы. Стихотворный запрос нарушает эту привычную логику. Он использует ритм, метафоры и эмоциональную окраску, чтобы обмануть алгоритм. В результате модель может не распознать в стихе скрытую угрозу, даже если её содержание идентично запрещённой команде в обычном формате.

Такая уязвимость особенно критична в контексте дипфейков, генерации вредоносного кода и манипуляций с данными. Например, запрос, сформулированный в виде стихотворения, может содержать инструкции по взлому или сбору персональной информации, и при этом оставаться незамеченным системой фильтрации.

Важный нюанс: защита от ИИ-атак не может быть ограничена только улучшением алгоритмов. Нужно учитывать, что угрозы могут приходить в самых неожиданных формах — и именно поэтому системы безопасности должны быть гибкими и адаптивными.

Кто выигрывает и кто проигрывает

Исследование показало, что устойчивость к таким атакам неодинакова у разных провайдеров. Например, модель Claude от Anthropic демонстрировала минимальный уровень уязвимости — всего 5,24% [!]. Это может говорить о более тщательной настройке фильтров или о том, что модель лучше справляется с нестандартными входными данными.

В то же время у некоторых провайдеров показатель необнаруженных опасных запросов достиг 90%. Это указывает на системную проблему, а не на ошибки отдельных компаний. Другими словами, уязвимость не в алгоритмах, а в том, как они обрабатывают необычные форматы ввода.

Важный нюанс: Победителями в этом случае становятся исследователи и, возможно, злоумышленники, которые могут использовать этот метод для тестирования и атак. Провайдеры ИИ-моделей, особенно те, кто предоставляет услуги через облако, рискуют потерять доверие клиентов, если не устранят эту уязвимость.

Для российских компаний, использующих ИИ-сервисы из-за рубежа, это может стать дополнительным риском, особенно если они не контролируют, как именно обрабатываются их данные. В условиях, когда безопасность информации — критически важный фактор, любая уязвимость в сторонних системах становится потенциальной угрозой.

Что дальше: адаптация или усиление фильтрации?

Вопрос, который остаётся открытым, — как именно следует реагировать на подобные угрозы. С одной стороны, можно адаптировать модели к нестандартным форматам запросов, обучая их на более разнообразных данных. С другой — можно усилить фильтры на стороне провайдера, чтобы они лучше справлялись с неожиданными входными форматами.

Однако оба подхода имеют свои ограничения. Обучение на стихах и других нестандартных форматах может сделать модель более устойчивой, но и более медленной. Усиление фильтрации может снизить эффективность модели в целом, если она станет слишком «осторожной».

Важный нюанс: ИИ-модели становятся не только инструментами, а архитектурными элементами цифровой инфраструктуры. Их уязвимости — это уязвимости всей системы.

Угрозы маскируются под поэзию, но ответы — в технической подготовке

Сама по себе идея использования стихотворного формата для атаки — это не новшество. Подобные методы уже применялись в других сферах, например, в киберпреступности для обхода систем фильтрации. Однако применение этого подхода к ИИ-моделям демонстрирует, что безопасность таких систем требует не только технических решений, но и глубокого понимания поведения злоумышленников.

В этом контексте стоит обратить внимание на недавние шаги OpenAI и Google. OpenAI инвестирует более 400 млрд долларов в масштабирование дата-центров, что включает в себя улучшение обработки нестандартных форматов запросов [!]. Google также активно расширяет мощности для ИИ, вкладывая свыше $10 млрд в квартал в инфраструктуру. Эти меры указывают на то, что крупные игроки уже осознают необходимость адаптации к новым формам атак.

Важный нюанс: Для российских компаний, использующих ИИ-сервисы, особенно важным становится выбор провайдеров с доказанной устойчивостью к нестандартным форматам запросов. Также актуальны внутренние меры по аудиту и тестированию ИИ-моделей, особенно в критически важных секторах, таких как финансы, здравоохранение и телекоммуникации.

Примеры из практики: как уже реагируют игроки

Meta⋆, как показывает её сотрудничество с Cerebras Systems, активно диверсифицирует поставки ИИ-оборудования, чтобы снизить зависимость от одного поставщика [!]. Это позволяет компании не только масштабировать мощности, но и улучшать надёжность обработки запросов. Также важно, что Meta⋆ модифицировала Meta⋆ AI, исключив возможность обсуждения тем, связанных с самоповреждением, суицидом и другими опасными для подростков сценариями [!]. Эти изменения демонстрируют, что крупные игроки уже начинают учитывать нестандартные форматы запросов при проектировании систем безопасности.

Важный нюанс: Для бизнеса важно не только использовать ИИ, но и понимать, как он работает. Особенно в условиях, когда угрозы могут приходить в форме стихов, галлюцинаций или манипуляций с данными. Управление рисками требует не только технологических решений, но и стратегического подхода, включающего обучение сотрудников, тестирование моделей и мониторинг изменений в индустрии.

Выводы и рекомендации

Адаптация моделей к нестандартным форматам — это неотъемлемая часть стратегии безопасности. Особенно важно учитывать, что угрозы могут приходить в самых неожиданных формах, включая стихи, галлюцинации и манипуляции с контекстом.
Выбор провайдера с доказанной устойчивостью — критически важен для компаний, особенно в секторах с высокими требованиями к безопасности.
Внутренний аудит и тестирование — позволяют выявить уязвимости до того, как они станут проблемой. Это особенно актуально для российских компаний, использующих ИИ-сервисы из-за рубежа.
Обучение сотрудников — ключевой элемент управления рисками. Сотрудники должны понимать, как работают ИИ-модели, какие угрозы они могут не распознать и как с этим справляться.
Мониторинг изменений в индустрии — позволяет оперативно реагировать на новые угрозы и адаптировать стратегию безопасности.

Эти меры не только снижают риски, но и открывают возможности для более эффективного использования ИИ в бизнесе.

Источник: pcworld.com

Контакты Асектор ✉

Коротко о главном

Сколько стихотворных запросов было протестировано?

В исследовании участвовали 1200 стихотворных запросов, охватывающих опасные темы, такие как насилие, дезинформация и создание оружия.

Какова эффективность стихотворных запросов по сравнению с обычным текстом?

Стихотворные запросы позволили обойти защиту в 65% случаев, что в три раза выше, чем при использовании обычного текста.

Какие темы стихов были наиболее успешными в обходе фильтров?

Стихи, связанные с вредоносным манипулированием, включая инструкции по взлому и подбору паролей, имели успех в 24% случаев.

Какая модель показала наилучшую устойчивость к атакам?

Модель Claude от Anthropic поддавалась стихотворным запросам лишь в 5,24% случаев, что делает её наиболее устойчивой к такому типу атак.

Какие компании участвовали в исследовании?

В исследовании участвовали DEXAI, Sapienza University of Rome, Sant’Anna School of Advanced Studies, OpenAI, Google, Meta⋆, xAI, Anthropic и DeepSeek.

Какова была максимальная уязвимость среди моделей?

У некоторых провайдеров необнаруженные опасные запросы в стихотворной форме достигли 90%, что указывает на системную уязвимость.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Аналитика и исследования

Темы: Безопасность моделей искусственного интеллекта; Исследование потенциальных слабых мест; Форматирование запросов;

Оценка значимости: 8 из 10

Событие имеет национальное значение для России, так как затрагивает безопасность искусственного интеллекта, что критически важно для страны, активно развивающей собственные ИИ-технологии. Воздействие продолжается в долгосрочной перспективе, поскольку уязвимости в защитных функциях LLM могут использоваться для вредоносных целей. Оно затрагивает несколько сфер — технологическую, кибербезопасность и общественную безопасность. Поскольку речь идёт о глобальной проблеме, имеющей прямое влияние на российских разработчиков и пользователей ИИ, оценка повышена.

Материалы по теме

OpenAI и Foxconn создают ИИ-инфраструктуру в США для дата-центров

Упомянутый показатель уязвимости Claude (5,24%) используется как пример высокой эффективности фильтрации у определённых моделей, подчеркивая значительные различия в устойчивости к нестандартным запросам между провайдерами. Этот факт служит контрастом к общей проблеме, описанной в тексте, и демонстрирует, что уязвимость — не универсальная, а зависит от настроек и подходов к безопасности.

Подробнее →

Google инвестирует в ИИ-инфраструктуру: масштабирование на грани возможностей

Инвестиции OpenAI в масштабирование дата-центров (более 400 млрд долларов) и упоминание необходимости обработки нестандартных форматов запросов подчёркивают, что крупные игроки уже осознают проблему и включают её в свои стратегии. Эти данные усиливают аргумент о том, что адаптация к новым формам атак — неотъемлемая часть будущего ИИ.

Подробнее →

Tencent сокращает инвестиции в ИИ, но доходы растут

Упоминание инвестиций Google в ИИ-инфраструктуру (свыше $10 млрд в квартал) используется как пример масштабных усилий крупных компаний для укрепления своих позиций в условиях роста угроз. Это поддерживает идею о том, что инвестиции в безопасность и масштабирование становятся стратегическим приоритетом.

Подробнее →

Gemini Google угрожает детям: опасный контент проходит фильтры

Информация о модификации Meta⋆ AI с целью исключения обсуждения тем, связанных с самоповреждением и суицидом, используется как пример того, как крупные игроки уже адаптируют свои системы к нестандартным форматам запросов. Это подкрепляет мысль о том, что угрозы могут приходить в самых неожиданных формах, и что защита должна быть комплексной.

Подробнее →

Cerebras Systems привлекет 1 миллиард долларов, чтобы бросить вызов Nvidia на рынке AI-чипов

Упоминание сотрудничества Meta⋆ с Cerebras Systems служит примером того, как компании диверсифицируют поставки ИИ-оборудования для повышения надёжности и безопасности. Это поддерживает аргумент о важности стратегического подхода к управлению рисками и адаптации инфраструктуры к новым вызовам.

Подробнее →