Ноябрь 2025 | Обзор события | 6

Крупные ИИ-компании используют данные пользователей для тренировки моделей без прозрачности

Компании, разрабатывающие крупномасштабные языковые модели, используют данные пользовательских диалогов для тренировки ИИ, что может включать конфиденциальную информацию. Эксперты отмечают, что текущие правила не обеспечивают достаточной прозрачности в обработке и повторном использовании таких данных, а процесс удаления личной информации остаётся необязательным и недостаточно стандартизированным.

Содержание

Обзор

Существуют ли критерии персональных данных при тренировке ИИ

Личные данные или коммерческий актив

Когда диалоги становятся ресурсом: новые риски для конфиденциальности
- Кто выигрывает, а кто теряет контроль
- Скрытые цепочки и неожиданные последствия
- Что происходит, когда данные истощаются
- Риски утечки и новые подходы к защите

ИСХОДНЫЙ НАРРАТИВ

По данным The Register, представители крупных компаний, занимающихся разработкой крупномасштабных языковых моделей (LLM), могут использовать данные пользовательских диалогов для дальнейшей тренировки моделей и получения коммерческой выгоды, при этом уровень прозрачности и контроля за соблюдением конфиденциальности остаётся низким.

Существуют ли критерии персональных данных при тренировке ИИ

На слушаниях в комитете по энергетике и торговой Палаты представителей США эксперты указали, что в настоящее время отсутствуют обязательные требования к разработчикам ИИ, чтобы те понимали полный путь обработки данных — от их сбора и очистки до повторного использования в обучении моделей. Jennifer King, исследователь в области политики данных и конфиденциальности при Стэнфордском университете, отметила, что пользователи не должны автоматически подключаться к сбору данных для обучения моделей, а разработчики обязаны активно удалять личную информацию из обучающих наборов.

Она подчеркнула, что в рамках текущих правил невозможно определить, как именно персональные данные будут использоваться при тренировке LLM. Например, пользователь может запросить у чат-бота медицинскую консультацию и раскрыть больше информации, чем при поиске в интернете. Такие данные, как правило, включаются в обучающие наборы, если компания не предпринимает усилий для их исключения.

Jennifer King также отметила, что первоначальные основные модели ИИ создавались на основе данных, собранных из открытых источников интернета, включая материалы, защищённые авторским правом. Однако запасы английских данных, подходящих для тренировки, истощаются, что вынуждает разработчиков искать альтернативные источники, включая личные диалоги пользователей.

Концептуальное изображение

Личные данные или коммерческий актив

В случае, когда чат-боты создаются или используются другими платформами, личные данные могут рассматриваться как коммерческий актив. Так, старые технологические компании, уже обладающие профилями пользователей, могут использовать поведенческие данные с других сайтов для персонализации рекомендаций в чат-ботах. Это может включать, например, историю покупок, которая влияет на предложения, предоставляемые пользователю.

Согласно исследованиям, включая работы сотрудников крупных технологических компаний, чат-боты способны запоминать обучающие данные. Это создаёт риски утечки информации и потенциального нарушения конфиденциальности. Вместе с тем, отсутствуют доказательства того, что большинство компаний систематически удаляют чувствительные данные перед их повторным использованием.

Интересно: Каковы последствия для пользовательской приватности, если данные из личных диалогов становятся частью коммерческой стратегии ИИ-компаний, и каким образом можно обеспечить прозрачность в этом процессе?

АНАЛИТИЧЕСКИЙ РАЗБОР

Когда диалоги становятся ресурсом: новые риски для конфиденциальности

Кто выигрывает, а кто теряет контроль

Компании, разрабатывающие крупномасштабные языковые модели, находятся в состоянии постоянного поиска новых данных для обучения. С одной стороны, это естественный процесс: чем больше и разнообразнее данные, тем лучше модель справляется с задачами. С другой — речь идёт о личных диалогах, где пользователи раскрывают информацию, не ожидая, что она будет использована в коммерческих целях.

Ключевой момент: данные из пользовательских диалогов становятся важным ресурсом для тренировки моделей ИИ. При этом пользователи не всегда осознают, что их сообщения могут быть включены в обучающие наборы. Это создаёт несбалансированную систему: компания получает ценную информацию, а пользователь — теряет контроль.

Разработчики ИИ не обязаны предоставлять полную информацию о том, какие именно данные обрабатываются. В результате, пользователь не может точно сказать, как его слова будут использованы в будущем. Это особенно касается случаев, когда пользователь раскрывает личную или чувствительную информацию — например, в медицинских консультациях или в переписке с психологом.

Скрытые цепочки и неожиданные последствия

Когда данные из диалогов становятся частью коммерческой стратегии, это влияет не только на пользователей, но и на других участников процесса. Старые технологические гиганты, уже обладающие обширными базами данных, могут использовать поведенческие модели из других платформ для персонализации чат-ботов. Это усиливает их позиции на рынке и ограничивает возможности новых игроков, у которых нет такой же глубины данных.

Ключевой момент: использование поведенческих данных из разных источников создаёт масштабный эффект. Чем больше данных у компании, тем точнее она может прогнозировать поведение пользователей и предлагать персонализированный контент. Это, в свою очередь, увеличивает вовлечённость и выручку.

Однако такой подход также создаёт риски. Если чат-боты способны запоминать обучающие данные, то теоретически они могут способствовать утечке информации. Особенно это касается случаев, когда данные содержат личные сведения — например, медицинские истории или финансовые транзакции. В отсутствие строгих требований к удалению чувствительной информации, такие риски остаются актуальными.

Что происходит, когда данные истощаются

Ранее ИИ-модели обучались на данных из открытых источников — веб-сайтов, книг, статей. Но запасы английских данных, подходящих для тренировки, истощаются. Это вынуждает разработчиков искать альтернативные источники. В качестве одного из таких источников выступают личные диалоги пользователей.

Ключевой момент: истощение запасов данных приводит к увеличению зависимости от пользовательского контента. Это, в свою очередь, усиливает риски для конфиденциальности, так как пользователи становятся не просто потребителями, а и поставщиками информации.

В российском контексте это может создать дополнительные сложности. Многие ИИ-платформы, используемые в стране, хранят данные за границей. Это означает, что пользовательские диалоги могут обрабатываться в юрисдикциях с иными стандартами конфиденциальности. Для бизнеса это может быть рискованным, особенно если речь идёт о корпоративной переписке или стратегических данных.

Важный нюанс: использование личных диалогов в обучении ИИ создаёт новую форму цифровой зависимости, где пользователь становится не только клиентом, но и ресурсом для развития технологии.

Риски утечки и новые подходы к защите

Один из ключевых вызовов, связанных с использованием пользовательских диалогов, — это риск утечки данных. Недавние инциденты показывают, что даже крупные корпорации не застрахованы от уязвимостей. Например, уязвимость в чат-боте Lenovo позволила злоумышленникам украсть данные сотрудников, включая cookie-файлы и рабочие сессии [!]. Аналогичные риски возникают и при использовании ИИ-ассистентов в корпоративной среде: 72% организаций уже внедрили агентов ИИ, но не всегда обеспечивают должный уровень контроля [!].

Для минимизации рисков эксперты рекомендуют использовать централизованные платформы управления ИИ-агентами, а также внедрять строгие политики хранения и обработки данных. В некоторых случаях компании переходят к локальным ИИ-моделям, чтобы сохранить контроль над данными и соответствовать нормативным требованиям [!].

Ключевой момент: защита конфиденциальности в эпоху ИИ требует комплексного подхода — от технических решений до внутренних политик и культуры безопасности. Особенно это важно для российского бизнеса, где вопросы защиты данных становятся приоритетом как в законодательстве, так и в практике [!].

Источник: The Register

Контакты Асектор ✉

Коротко о главном

Почему пользователи не знают, что их данные используются в обучении ИИ?

Потому что в настоящее время нет обязательных требований к разработчикам ИИ, чтобы они информировали пользователей о полном пути обработки данных — от сбора до повторного использования, и пользователи автоматически подключаются к сбору данных, если не указано обратное.

Какие риски возникают при использовании личных диалогов для обучения моделей?

Риски включают утечку информации и нарушение конфиденциальности, поскольку чат-боты способны запоминать обучающие данные, а доказательств систематического удаления чувствительной информации большинством компаний нет.

Почему данные из медицинских консультаций особенно опасны для использования?

Потому что такие данные содержат больше личной и конфиденциальной информации, чем, например, обычный поиск в интернете, и включаются в обучающие наборы, если компания не предпринимает усилий для их исключения.

Как старые технологические компании используют данные для чат-ботов?

Они используют поведенческие данные с других платформ, таких как история покупок, чтобы персонализировать рекомендации в чат-ботах, рассматривая личную информацию как коммерческий актив.

Что указала Jennifer King по поводу прозрачности обработки данных?

Она подчеркнула, что разработчики обязаны активно удалять личную информацию из обучающих наборов и должны предоставлять пользователям возможность контролировать, используется ли их информация для обучения моделей.

Инфографика событий

Открыть инфографику на весь экран

Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Маркетинг и продажи; Право и регулирование; Цифровизация и технологии

Темы: Использование пользовательских данных; Конфиденциальность данных; Развитие искусственного интеллекта через обучение;

Оценка значимости: 6 из 10

Событие касается международных трендов в области искусственного интеллекта и конфиденциальности, что имеет региональное влияние на Россию, так как аналогичные практики могут применяться и в российских технологических компаниях. Проблема затрагивает несколько сфер — технологии, право, пользовательский опыт и этику, но её воздействие ограничено сферой цифровых услуг и не является критическим или долгосрочным.

Материалы по теме

Уязвимость чат-бота Lenovo: как хакеры украли данные сотрудников

Уязвимость чат-бота Lenovo, через которую злоумышленники украли cookie-файлы и рабочие сессии сотрудников, служат конкретным примером рисков утечки данных, о которых говорится в тексте. Он подкрепляет аргумент о том, что даже корпоративные ИИ-системы уязвимы и могут стать точкой проникновения для атак.

Подробнее →

Как избежать рисков неконтролируемого использования агентов ИИ

Упоминание, что 72% организаций внедрили агентов ИИ, но не всегда обеспечивают должный уровень контроля, используется в тексте как иллюстрация масштаба проблемы неконтролируемого использования ИИ и связанного с этим риска утечки данных.

Подробнее →

Локальный ИИ: как защитить данные и повысить эффективность в программатике

Ссылка на переход компаний к локальным ИИ-моделям для сохранения контроля над данными и соблюдения нормативных требований поддерживает тезис о необходимости технических и организационных мер защиты конфиденциальности в эпоху ИИ.

Подробнее →

Россия формирует определение ИИ в законе — защита данных и авторства в фокусе

Упоминание о том, что защита персональных данных становится приоритетом в законодательстве и практике, используется в тексте для акцента на растущей важности регулирования ИИ и необходимости комплексного подхода к безопасности.

Подробнее →