AI-агенты под угрозой: как утекают корпоративные секреты
Исследование показало, что AI-агенты, используемые в корпоративных системах, могут допустить утечку конфиденциальной информации, если злоумышленник внедрит вредоносные инструкции в текст, невидимый для пользователя. Агенты, анализируя такие данные, могут передавать секреты на сторонние серверы, используя встроенные инструменты поиска и работы с файлами.
По данным исследования, проведённого Smart Labs AI и университетом Авгсбурга, AI-агенты, используемые в корпоративных системах, могут стать инструментом утечки конфиденциальной информации. Уязвимость заключается в том, что агенты, оснащённые возможностью поиска в интернете и доступа к внутренним документам, могут быть запрограммированы на передачу секретных данных злоумышленнику, не вызывая подозрений у пользователя.
AI-агенты — это комбинация языковой модели
AI-агенты получают запрос, анализируют информацию из разных источников и возвращают ответ. Учёные продемонстрировали, как агент может быть запущен на выполнение несанкционированных действий при обработке специально подготовленной страницы в интернете. Такой подход называется непрямой инъекцией приглашения.
Непрямая инъекция приглашения
«Непрямая инъекция приглашения» не требует вмешательства в саму модель. Вредоносные инструкции могут быть встроены в текст, невидимый для пользователя — например, белым цветом на белом фоне. Как только агент обрабатывает такую страницу, он интерпретирует скрытые команды как часть задачи. В ходе эксперимента агенты передавали секреты, хранящиеся в корпоративных базах, на серверы злоумышленников, используя встроенные инструменты поиска.
Для тестирования исследователи создали 1 068 уникальных атак на различные языковые модели, варьируя длину, формулировки и методы кодирования инструкций. Результаты показали, что успешность атак не зависит от размера модели. В некоторых случаях маленькие модели оказались устойчивее, чем крупные. Это указывает на важность методов обучения и выравнивания моделей, а не на количество параметров.
Защита по устранению утечки информации
В области безопасности уже инициированы совместные усилия по созданию общей методологии. OWASP, NIST, CoSAI и частные компании работают над классификациями угроз, стандартами и практиками. По словам Элада Шульмана, генерального директора Lasso Security, угрозы для агентных систем развиваются быстро, и компании должны проводить тестирование моделей и внедрять специализированные меры защиты.
Существующие меры безопасности часто сосредоточены на проверке пользовательского ввода, что делает их неэффективными в случае непрямой инъекции. Атакующий может использовать вредоносные тексты в поисковых результатах, документах или визуальном контенте. Поскольку угрозы не стандартизированы, компании рискуют повторять ошибки, не имея общих ориентиров.
Для защиты от подобных утечек рекомендуется рассматривать AI-агенты как полноценные программные системы, требующие контроля. Контроль за поведением агента, проверка политик перед использованием внешних инструментов и ограничение доступа к внутренним данным — всё это входит в комплексную систему защиты. С увеличением функционала агентов — включая работу с изображениями, аудио и интеграцией в рабочие инструменты — риски растут. Управление такими системами должно соответствовать стратегиям, применяемым к безопасности идентичности, браузеров и исполнения кода.
Интересно: Сможет ли существующая архитектура корпоративной кибербезопасности адаптироваться к угрозам, которые исходят не извне, а из самих систем, используемых для оптимизации бизнес-процессов?
Новые угрозы изнутри: как AI-агенты меняют правила кибербезопасности
Скрытые механизмы утечек: почему защита пользовательского ввода недостаточна
AI-агенты, созданные для повышения эффективности корпоративных процессов, становятся новой точкой проникновения для злоумышленников. Причина в их архитектуре: они не просто обрабатывают текст, но и активно взаимодействуют с внешними ресурсами — веб-страницами, базами данных, файлами. Это дает атакующим возможность использовать агента как посредника для извлечения информации, не нарушая традиционные слои безопасности.
Ключевая особенность угрозы — непрямая инъекция приглашения. Атакующий не модифицирует модель, а внедряет вредоносные инструкции в обычный текст. Такой подход позволяет обойти фильтры, ориентированные на проверку пользовательского ввода. Агент, следуя своей логике, интерпретирует скрытые команды как часть задачи. Результат — утечка данных, которая выглядит как закономерное действие системы.
Важно: Агенты не просто уязвимы, они становятся новым вектором атак, где злоумышленник использует не слабости в коде, а логику самого агента.

Неожиданные последствия: как уязвимости агентов влияют на бизнес
Утечка данных через AI-агентов может привести к серьезным последствиям. Например, агент, интегрированный в систему управления проектами, может случайно (или намеренно) передать коммерческие секреты конкуренту. Это особенно опасно в компаниях, где агенты применяются для автоматизации анализа контрактов, финансовой отчетности или стратегических документов.
Нужно понимать, что угроза не ограничивается крупными корпорациями. Малые модели оказались в некоторых случаях устойчивее, чем крупные. Это означает, что стоимость и сложность модели не гарантируют безопасности. Реальная проблема — в методах обучения и выравнивания моделей, которые не всегда учитывают риски, связанные с обработкой внешнего контента.
Важно: Утечка через AI-агентов может быть не результатом ошибки, а следствием недостаточной проработки стратегии безопасности на этапе внедрения.
Перезагрузка подхода: от фильтрации ввода к управлению поведением
Традиционные меры безопасности, ориентированные на проверку пользовательского ввода, не справляются с угрозами, исходящими от агентов. Чтобы минимизировать риски, компании должны рассматривать AI-агентов как полноценные программные системы, требующие строгого контроля. Это включает:
- Проверку политик перед выполнением действий, особенно при использовании внешних инструментов.
- Ограничение доступа к внутренним данным, разделяя права между агентами и пользователями.
- Мониторинг поведения агентов в реальном времени, чтобы выявлять аномалии.
Совместные усилия OWASP, NIST и других организаций направлены на создание стандартов и классификаций угроз. Однако пока отсутствует общепринятая методология. Это означает, что компании, которые не начнут внедрять специализированные меры защиты, рискуют стать жертвами атак, о которых даже не подозревают.
Важно: Безопасность AI-агентов требует не просто обновления правил, а полной перезагрузки подхода к управлению системами, где логика агента может стать уязвимостью.
Расширение угроз: новые методы атак и масштабы внедрения агентов
С развитием AI-агентов растет и число методов их атак. Например, веб-сайты могут манипулировать агентами, отправляя им скрытые команды, недоступные обычным пользователям. Это достигается через браузерную идентификацию, позволяющую отличить ИИ-агента от человека и передать ему альтернативную версию сайта [!]. Такие атаки уже успешно тестировались против моделей GPT-5 Fast и Google Gemini 2.5 Pro.
Кроме того, рост числа компаний, внедряющих агентов, усугубляет проблему. Около 72% организаций уже используют агентов ИИ, но 75% из них признают, что управление связанными с этим рисками является их главной проблемой [!]. Особенно быстро развивается сектор агентского ИИ в коммерции, как показывает пример Amazon, внедрившего агентов для автоматизации задач продавцов, включая анализ данных и контроль запасов [!].
Эти тенденции усиливают необходимость создания централизованных систем управления агентами. Без них риски утечек и сбоев будут расти, особенно в условиях, когда агенты все чаще получают доступ к конфиденциальной информации и выполняют критически важные задачи.