ServiceNow: точность ИИ-агентов выросла, но утечки данных увеличились с 34% до 51,7%
Стремление повысить точность ИИ-агентов увеличивает риск утечки данных с 34% до 51,7%, превращая логи поисковых запросов в канал раскрытия коммерческой тайны. Стандартные запреты не останавливают этот процесс, требуя пересмотра архитектуры обучения для предотвращения «мозаичного» сбора секретов злоумышленниками.
Исследователи из компании ServiceNow выявили критическую уязвимость в работе автономных исследовательских агентов на базе искусственного интеллекта. При решении сложных задач, требующих совмещения внутренних корпоративных документов и данных из интернета, агенты неосознанно передают конфиденциальную информацию в открытых поисковых запросах. Этот эффект, названный «мозаичным», позволяет злоумышленнику собрать полную картину секретных фактов, анализируя лишь логи запросов, даже если каждый отдельный запрос выглядит безобидным. Проблема усугубляется тем, что стандартное обучение моделей на повышение точности ответов лишь увеличивает вероятность утечки, так как агенты начинают включать больше деталей в свои запросы для лучшего поиска.
Механика «мозаичного» эффекта и типы утечек
Проблема заключается в том, что агент строит цепочку рассуждений, где ответ на один внутренний вопрос становится частью следующего внешнего запроса. Наблюдатель, перехватывающий поток запросов, может сопоставить разрозненные фрагменты и восстановить скрытые данные. В исследовании выделены три уровня угрозы, зависящие от того, что именно может вывести атакующий:
- Утечка намерений: Злоумышленник видит логи запросов и понимает, какую именно внутреннюю задачу решает агент (например, расследование инцидента безопасности).
- Утечка ответов: На основе запросов можно ответить на конкретные вопросы о закрытых данных, даже не имея доступа к самим документам.
- Полная утечка информации: Самый опасный сценарий, когда наблюдатель может сформулировать верные утверждения о внутренних фактах компании (например, даты миграции серверов или финансовые показатели) без знания исходных вопросов.
Пример из исследования показывает, как агент, ищущий информацию о миграции инфраструктуры, в запросе упоминает конкретный процент завершения работ и месяц. Сами по себе эти цифры в запросе не выглядят как секрет, но в связке с другими данными они раскрывают точный статус проекта, доступный только внутри компании.
Важный нюанс: Угроза возникает не из-за прямого доступа к файлам, а из-за того, как агент формулирует запросы к публичным источникам. Лог поисковых систем становится каналом утечки.
Неэффективность простых запретов и парадокс обучения
Интуитивное решение — добавить в инструкции агенту запрет на раскрытие секретов — не работает. Эксперименты показали, что простое текстовое напоминание (промпт) снижает утечку лишь незначительно, но при этом ухудшает способность агента решать задачи. Более того, попытка обучить модель исключительно на повышение точности ответов привела к обратному эффекту: процент успешных решений вырос, но уровень утечки данных увеличился с 34,0% до 51,7%.
Модель научилась «упаковывать» больше контекста в поисковые запросы, чтобы быстрее находить нужные документы. Однако этот контекст содержал фрагменты приватных данных, что сделало агента более полезным для работы, но более опасным для безопасности.
Стоит учесть: Повышение эффективности работы ИИ-агента без специальной настройки на конфиденциальность автоматически повышает риски утечки. Точность и безопасность в данном случае находятся в прямой противоречивости.
Решение: метод PA-DR и новые метрики
Для решения проблемы была разработана методика обучения с подкреплением Privacy-Aware Deep Research (PA-DR). Она использует два типа вознаграждений: за успешное выполнение задачи и за сохранение приватности. Ключевым отличием является оценка каждого шага агента отдельно, а не только финального результата, что позволяет точно наказывать за конкретные «протечки» в запросах.
Результаты применения метода PA-DR на модели Qwen3-4B демонстрируют значительный прогресс:
| Метод обучения | Успешность цепочки (%) | Уровень утечки ответов/информации (%) |
|---|---|---|
| Базовая модель | 48,7 | 34,0 |
| Обучение только на задачу | 59,3 | 51,7 |
| Метод PA-DR (Задача + Приватность) | 58,7 | 9,9 |
Метод позволил снизить уровень утечки почти в 3,5 раза по сравнению с базовой моделью и более чем в 5 раз по сравнению с моделью, обученной только на точность. При этом эффективность решения задач осталась на высоком уровне. Агенты, обученные по этому методу, стали выдавать больше запросов, но в них удалялись чувствительные детали, такие как конкретные цифры и даты, при сохранении способности находить нужные публичные документы.
На фоне этого: Обучение приватности требует не меньше, а иногда и больше вычислительных ресурсов, но метод PA-DR оказался эффективнее стандартных подходов, достигая нужного уровня точности в 5–6 раз быстрее по количеству необходимых обучающих примеров.
Операционные последствия и скрытые риски
Внедрение автономных агентов в корпоративную среду требует пересмотра подходов к безопасности. Исследование указывает на несколько практических выводов для бизнеса:
- Необходимость специализированного обучения: Стандартные инструкции безопасности (промпты) недостаточны. Требуется дообучение моделей с использованием механизмов вознаграждения за приватность на каждом шаге выполнения задачи.
- Мониторинг логов запросов: Логи поисковых запросов, генерируемых ИИ-агентами, следует рассматривать как потенциально конфиденциальный канал данных. Их анализ может выявить утечки, даже если сами документы защищены.
- Баланс между точностью и безопасностью: Стремление к максимальной точности ответов без учета приватности ведет к росту рисков. Необходимо внедрять метрики безопасности наравне с метриками производительности при оценке работы агентов.
- Ограниченность текущих тестов: Результаты получены на синтетических данных в контролируемой среде. Реальные корпоративные системы могут иметь более сложную структуру данных и другие сценарии использования, требующие дополнительной валидации.
Важный нюанс: Проблема актуальна не только для финансовых данных, но и для технической информации, например, версий внутреннего ПО или критериев соответствия устройств, которые могут быть выведены через анализ запросов при аудите безопасности.
Исследование подчеркивает, что приватность в работе ИИ-агентов — это не настройка, которую можно включить одной кнопкой, а свойство, которое нужно закладывать в архитектуру обучения модели. Без этого автономные системы становятся инструментом непреднамеренного раскрытия коммерческой тайны.
Источник: huggingface.co