Крупные ИИ-компании используют данные пользователей для тренировки моделей без прозрачности
Компании, разрабатывающие крупномасштабные языковые модели, используют данные пользовательских диалогов для тренировки ИИ, что может включать конфиденциальную информацию. Эксперты отмечают, что текущие правила не обеспечивают достаточной прозрачности в обработке и повторном использовании таких данных, а процесс удаления личной информации остаётся необязательным и недостаточно стандартизированным.
По данным The Register, представители крупных компаний, занимающихся разработкой крупномасштабных языковых моделей (LLM), могут использовать данные пользовательских диалогов для дальнейшей тренировки моделей и получения коммерческой выгоды, при этом уровень прозрачности и контроля за соблюдением конфиденциальности остаётся низким.
Существуют ли критерии персональных данных при тренировке ИИ
На слушаниях в комитете по энергетике и торговой Палаты представителей США эксперты указали, что в настоящее время отсутствуют обязательные требования к разработчикам ИИ, чтобы те понимали полный путь обработки данных — от их сбора и очистки до повторного использования в обучении моделей. Jennifer King, исследователь в области политики данных и конфиденциальности при Стэнфордском университете, отметила, что пользователи не должны автоматически подключаться к сбору данных для обучения моделей, а разработчики обязаны активно удалять личную информацию из обучающих наборов.
Она подчеркнула, что в рамках текущих правил невозможно определить, как именно персональные данные будут использоваться при тренировке LLM. Например, пользователь может запросить у чат-бота медицинскую консультацию и раскрыть больше информации, чем при поиске в интернете. Такие данные, как правило, включаются в обучающие наборы, если компания не предпринимает усилий для их исключения.
Jennifer King также отметила, что первоначальные основные модели ИИ создавались на основе данных, собранных из открытых источников интернета, включая материалы, защищённые авторским правом. Однако запасы английских данных, подходящих для тренировки, истощаются, что вынуждает разработчиков искать альтернативные источники, включая личные диалоги пользователей.

Личные данные или коммерческий актив
В случае, когда чат-боты создаются или используются другими платформами, личные данные могут рассматриваться как коммерческий актив. Так, старые технологические компании, уже обладающие профилями пользователей, могут использовать поведенческие данные с других сайтов для персонализации рекомендаций в чат-ботах. Это может включать, например, историю покупок, которая влияет на предложения, предоставляемые пользователю.
Согласно исследованиям, включая работы сотрудников крупных технологических компаний, чат-боты способны запоминать обучающие данные. Это создаёт риски утечки информации и потенциального нарушения конфиденциальности. Вместе с тем, отсутствуют доказательства того, что большинство компаний систематически удаляют чувствительные данные перед их повторным использованием.
Интересно: Каковы последствия для пользовательской приватности, если данные из личных диалогов становятся частью коммерческой стратегии ИИ-компаний, и каким образом можно обеспечить прозрачность в этом процессе?
Когда диалоги становятся ресурсом: новые риски для конфиденциальности
Кто выигрывает, а кто теряет контроль
Компании, разрабатывающие крупномасштабные языковые модели, находятся в состоянии постоянного поиска новых данных для обучения. С одной стороны, это естественный процесс: чем больше и разнообразнее данные, тем лучше модель справляется с задачами. С другой — речь идёт о личных диалогах, где пользователи раскрывают информацию, не ожидая, что она будет использована в коммерческих целях.
Ключевой момент: данные из пользовательских диалогов становятся важным ресурсом для тренировки моделей ИИ. При этом пользователи не всегда осознают, что их сообщения могут быть включены в обучающие наборы. Это создаёт несбалансированную систему: компания получает ценную информацию, а пользователь — теряет контроль.
Разработчики ИИ не обязаны предоставлять полную информацию о том, какие именно данные обрабатываются. В результате, пользователь не может точно сказать, как его слова будут использованы в будущем. Это особенно касается случаев, когда пользователь раскрывает личную или чувствительную информацию — например, в медицинских консультациях или в переписке с психологом.
Скрытые цепочки и неожиданные последствия
Когда данные из диалогов становятся частью коммерческой стратегии, это влияет не только на пользователей, но и на других участников процесса. Старые технологические гиганты, уже обладающие обширными базами данных, могут использовать поведенческие модели из других платформ для персонализации чат-ботов. Это усиливает их позиции на рынке и ограничивает возможности новых игроков, у которых нет такой же глубины данных.
Ключевой момент: использование поведенческих данных из разных источников создаёт масштабный эффект. Чем больше данных у компании, тем точнее она может прогнозировать поведение пользователей и предлагать персонализированный контент. Это, в свою очередь, увеличивает вовлечённость и выручку.
Однако такой подход также создаёт риски. Если чат-боты способны запоминать обучающие данные, то теоретически они могут способствовать утечке информации. Особенно это касается случаев, когда данные содержат личные сведения — например, медицинские истории или финансовые транзакции. В отсутствие строгих требований к удалению чувствительной информации, такие риски остаются актуальными.
Что происходит, когда данные истощаются
Ранее ИИ-модели обучались на данных из открытых источников — веб-сайтов, книг, статей. Но запасы английских данных, подходящих для тренировки, истощаются. Это вынуждает разработчиков искать альтернативные источники. В качестве одного из таких источников выступают личные диалоги пользователей.
Ключевой момент: истощение запасов данных приводит к увеличению зависимости от пользовательского контента. Это, в свою очередь, усиливает риски для конфиденциальности, так как пользователи становятся не просто потребителями, а и поставщиками информации.
В российском контексте это может создать дополнительные сложности. Многие ИИ-платформы, используемые в стране, хранят данные за границей. Это означает, что пользовательские диалоги могут обрабатываться в юрисдикциях с иными стандартами конфиденциальности. Для бизнеса это может быть рискованным, особенно если речь идёт о корпоративной переписке или стратегических данных.
Важный нюанс: использование личных диалогов в обучении ИИ создаёт новую форму цифровой зависимости, где пользователь становится не только клиентом, но и ресурсом для развития технологии.
Риски утечки и новые подходы к защите
Один из ключевых вызовов, связанных с использованием пользовательских диалогов, — это риск утечки данных. Недавние инциденты показывают, что даже крупные корпорации не застрахованы от уязвимостей. Например, уязвимость в чат-боте Lenovo позволила злоумышленникам украсть данные сотрудников, включая cookie-файлы и рабочие сессии [!]. Аналогичные риски возникают и при использовании ИИ-ассистентов в корпоративной среде: 72% организаций уже внедрили агентов ИИ, но не всегда обеспечивают должный уровень контроля [!].
Для минимизации рисков эксперты рекомендуют использовать централизованные платформы управления ИИ-агентами, а также внедрять строгие политики хранения и обработки данных. В некоторых случаях компании переходят к локальным ИИ-моделям, чтобы сохранить контроль над данными и соответствовать нормативным требованиям [!].
Ключевой момент: защита конфиденциальности в эпоху ИИ требует комплексного подхода — от технических решений до внутренних политик и культуры безопасности. Особенно это важно для российского бизнеса, где вопросы защиты данных становятся приоритетом как в законодательстве, так и в практике [!].
Источник: The Register