Июнь 2026 | В фокусе

ServiceNow: точность ИИ-агентов выросла, но утечки данных увеличились с 34% до 51,7%

Стремление повысить точность ИИ-агентов увеличивает риск утечки данных с 34% до 51,7%, превращая логи поисковых запросов в канал раскрытия коммерческой тайны. Стандартные запреты не останавливают этот процесс, требуя пересмотра архитектуры обучения для предотвращения «мозаичного» сбора секретов злоумышленниками.

Содержание

Обзор

Механика «мозаичного» эффекта и типы утечек

Неэффективность простых запретов и парадокс обучения

Решение: метод PA-DR и новые метрики

Операционные последствия и скрытые риски

Исследователи из компании ServiceNow выявили критическую уязвимость в работе автономных исследовательских агентов на базе искусственного интеллекта. При решении сложных задач, требующих совмещения внутренних корпоративных документов и данных из интернета, агенты неосознанно передают конфиденциальную информацию в открытых поисковых запросах. Этот эффект, названный «мозаичным», позволяет злоумышленнику собрать полную картину секретных фактов, анализируя лишь логи запросов, даже если каждый отдельный запрос выглядит безобидным. Проблема усугубляется тем, что стандартное обучение моделей на повышение точности ответов лишь увеличивает вероятность утечки, так как агенты начинают включать больше деталей в свои запросы для лучшего поиска.

Механика «мозаичного» эффекта и типы утечек

Проблема заключается в том, что агент строит цепочку рассуждений, где ответ на один внутренний вопрос становится частью следующего внешнего запроса. Наблюдатель, перехватывающий поток запросов, может сопоставить разрозненные фрагменты и восстановить скрытые данные. В исследовании выделены три уровня угрозы, зависящие от того, что именно может вывести атакующий:

Утечка намерений: Злоумышленник видит логи запросов и понимает, какую именно внутреннюю задачу решает агент (например, расследование инцидента безопасности).
Утечка ответов: На основе запросов можно ответить на конкретные вопросы о закрытых данных, даже не имея доступа к самим документам.
Полная утечка информации: Самый опасный сценарий, когда наблюдатель может сформулировать верные утверждения о внутренних фактах компании (например, даты миграции серверов или финансовые показатели) без знания исходных вопросов.

Пример из исследования показывает, как агент, ищущий информацию о миграции инфраструктуры, в запросе упоминает конкретный процент завершения работ и месяц. Сами по себе эти цифры в запросе не выглядят как секрет, но в связке с другими данными они раскрывают точный статус проекта, доступный только внутри компании.

Важный нюанс: Угроза возникает не из-за прямого доступа к файлам, а из-за того, как агент формулирует запросы к публичным источникам. Лог поисковых систем становится каналом утечки.

Неэффективность простых запретов и парадокс обучения

Интуитивное решение — добавить в инструкции агенту запрет на раскрытие секретов — не работает. Эксперименты показали, что простое текстовое напоминание (промпт) снижает утечку лишь незначительно, но при этом ухудшает способность агента решать задачи. Более того, попытка обучить модель исключительно на повышение точности ответов привела к обратному эффекту: процент успешных решений вырос, но уровень утечки данных увеличился с 34,0% до 51,7%.

Модель научилась «упаковывать» больше контекста в поисковые запросы, чтобы быстрее находить нужные документы. Однако этот контекст содержал фрагменты приватных данных, что сделало агента более полезным для работы, но более опасным для безопасности.

Стоит учесть: Повышение эффективности работы ИИ-агента без специальной настройки на конфиденциальность автоматически повышает риски утечки. Точность и безопасность в данном случае находятся в прямой противоречивости.

Решение: метод PA-DR и новые метрики

Для решения проблемы была разработана методика обучения с подкреплением Privacy-Aware Deep Research (PA-DR). Она использует два типа вознаграждений: за успешное выполнение задачи и за сохранение приватности. Ключевым отличием является оценка каждого шага агента отдельно, а не только финального результата, что позволяет точно наказывать за конкретные «протечки» в запросах.

Результаты применения метода PA-DR на модели Qwen3-4B демонстрируют значительный прогресс:

Метод обучения	Успешность цепочки (%)	Уровень утечки ответов/информации (%)
Базовая модель	48,7	34,0
Обучение только на задачу	59,3	51,7
Метод PA-DR (Задача + Приватность)	58,7	9,9

Метод позволил снизить уровень утечки почти в 3,5 раза по сравнению с базовой моделью и более чем в 5 раз по сравнению с моделью, обученной только на точность. При этом эффективность решения задач осталась на высоком уровне. Агенты, обученные по этому методу, стали выдавать больше запросов, но в них удалялись чувствительные детали, такие как конкретные цифры и даты, при сохранении способности находить нужные публичные документы.

На фоне этого: Обучение приватности требует не меньше, а иногда и больше вычислительных ресурсов, но метод PA-DR оказался эффективнее стандартных подходов, достигая нужного уровня точности в 5–6 раз быстрее по количеству необходимых обучающих примеров.

Операционные последствия и скрытые риски

Внедрение автономных агентов в корпоративную среду требует пересмотра подходов к безопасности. Исследование указывает на несколько практических выводов для бизнеса:

Необходимость специализированного обучения: Стандартные инструкции безопасности (промпты) недостаточны. Требуется дообучение моделей с использованием механизмов вознаграждения за приватность на каждом шаге выполнения задачи.
Мониторинг логов запросов: Логи поисковых запросов, генерируемых ИИ-агентами, следует рассматривать как потенциально конфиденциальный канал данных. Их анализ может выявить утечки, даже если сами документы защищены.
Баланс между точностью и безопасностью: Стремление к максимальной точности ответов без учета приватности ведет к росту рисков. Необходимо внедрять метрики безопасности наравне с метриками производительности при оценке работы агентов.
Ограниченность текущих тестов: Результаты получены на синтетических данных в контролируемой среде. Реальные корпоративные системы могут иметь более сложную структуру данных и другие сценарии использования, требующие дополнительной валидации.

Важный нюанс: Проблема актуальна не только для финансовых данных, но и для технической информации, например, версий внутреннего ПО или критериев соответствия устройств, которые могут быть выведены через анализ запросов при аудите безопасности.

Исследование подчеркивает, что приватность в работе ИИ-агентов — это не настройка, которую можно включить одной кнопкой, а свойство, которое нужно закладывать в архитектуру обучения модели. Без этого автономные системы становятся инструментом непреднамеренного раскрытия коммерческой тайны.

Источник: huggingface.co

Контакты Асектор ✉

Коротко о главном

Почему стандартное обучение моделей на точность ответов усугубляет проблему утечек?

Стремление к повышению качества поиска заставляет агентов включать больше деталей контекста в запросы, что привело к росту уровня утечки с 34,0% до 51,7% в эксперименте. Модель научилась «упаковывать» приватные фрагменты для ускорения работы, сделав систему более эффективной, но менее безопасной.

Какие три уровня угрозы выделяются при анализе логов поисковых запросов?

Атакующий может определить намерения агента, восстановить ответы на закрытые вопросы или сформулировать полные утверждения о внутренних фактах компании, таких как даты миграции серверов. Опасность заключается в том, что наблюдатель восстанавливает скрытые данные, сопоставляя разрозненные фрагменты из цепочки рассуждений агента.

Почему простые текстовые запреты в инструкциях не защищают от утечек?

Эксперименты показали, что добавление напоминаний о конфиденциальности лишь незначительно снижает риски, одновременно ухудшая способность агента выполнять задачи. Без изменения архитектуры обучения модель продолжает передавать чувствительные детали, пытаясь оптимизировать поиск информации.

Как метод PA-DR решает проблему баланса между точностью и безопасностью?

Разработанная методика использует двойное вознаграждение за выполнение задачи и сохранение приватности на каждом шаге, что позволило снизить уровень утечки до 9,9% на модели Qwen3-4B. Этот подход удаляет чувствительные цифры и даты из запросов, сохраняя при этом высокую эффективность поиска публичных документов.

В чем заключается преимущество метода PA-DR по сравнению с базовым обучением?

Применение новой методики сократило уровень утечки более чем в 5 раз по сравнению с обучением только на точность и почти в 3,5 раза по сравнению с базовой моделью. Кроме того, метод достиг нужного уровня точности в 5–6 раз быстрее, требуя меньше обучающих примеров для настройки.

Какие операционные изменения требуются для безопасного внедрения ИИ-агентов?

Корпорациям необходимо рассматривать логи поисковых запросов как конфиденциальный канал данных и внедрять специализированное обучение с метриками безопасности. Стандартных инструкций недостаточно, так как приватность должна быть заложена в архитектуру модели, а не добавлена как отдельная настройка.