Моральные риски ИИ
Моральные риски ИИ в новостной повестке, календарь упоминаний и aналитика в реальном времени.
Календарь упоминаний:
Снижение рисков ИИ за счёт стандартов безопасности
ФСТЭК планирует к концу 2025 года представить проект стандарта по безопасной разработке систем искусственного интеллекта. Документ будет учитывать уязвимости, специфичные для ИИ, и станет дополнением к общим стандартам безопасности ПО. Стандарт поможет компаниям обеспечивать безопасность на всех этапах работы с данными — от сбора до хранения и разметки. Ожидается, что он снизит риски для информационной инфраструктуры и повысит доверие к ИИ-технологиям.
Угрозы ИИ-агентам требуют усиления защитных мер
Новый тип атаки позволяет веб-сайтам манипулировать автономными ИИ-агентами, отправляя им вредоносные указания, невидимые для обычных пользователей. Это становится возможным благодаря способности сайтов определять ИИ по цифровому «отпечатку» и предоставлять агентам альтернативную версию страницы. Атака подтверждена на практике: агенты, основанные на моделях Claude, GPT и Gemini, успешно выполняли нежелательные действия. Безопасность ИИ требует маскировки отпечатка, разделения функций агентов и внедрения сканеров для обнаружения скрытых угроз.
Снижение рисков для подростков через родительский контроль ИИ
Компания OpenAI внедряет меры безопасности для защиты молодых пользователей, включая систему родительского контроля, которая уведомляет родителей о возможных эмоциональных трудностях подростков. Для активации функции требуется связать аккаунты через электронную почту, а родители получают сигналы, если чат-бот фиксирует крайнюю степень душевного напряжения. Пользователи смогут ограничивать доступ к функциям, таким как запоминание диалогов, и настраивать поведение ИИ в зависимости от возраста. Меры направлены на снижение негативного влияния ИИ на психическое здоровье несовершеннолетних.
Совместное тестирование выявило слабые места в оценках безопасности моделей ИИ.
В ходе совместного исследования OpenAI и Anthropic были выявлены проблемы сикофанства у моделей GPT-4.1 и Claude Opus 4, а также различия в подходах к обработке запросов, приводящих к разным уровням галлюцинаций. Исследователи подчеркнули важность сотрудничества для выработки отраслевых стандартов безопасности и смягчения потенциальных рисков развития ИИ.
Недостаточная защита ИИ-систем может привести к серьезным последствиям.
В статье описан случай уязвимости корпоративного чат-бота Lena, которая позволила злоумышленникам внедрять вредоносный код, похищать cookie-файлы и запускать сценарии на машинах сотрудников поддержки. Атака могла использоваться для кражи данных, установки кейлоггеров, фишинговых атак и загрузки вредоносного ПО.
Anthropic предлагает систему «безопасных рамок разработки» для ИИ
В предложении Anthropic предлагается система «безопасных рамок разработки» (SRD), которая потребует от крупных компаний по разработке ИИ оценки и минимизации потенциальных катастрофических рисков, связанных с их моделями. Предложение также предусматривает публичную отчетность о SRD и карточку системы с описанием процедур тестирования модели, результатов оценки и мер по смягчению последствий.
Моральные риски ИИ имеет 15 записей событий в нашей базе. Объединили похожие карточки: Моральные риски ИИ; Безопасность ИИ и другие.