Моральные риски ИИ

Моральные риски ИИ в новостной повестке, календарь упоминаний и aналитика в реальном времени.

Календарь упоминаний:

2025

22 сентября

Снижение рисков ИИ за счёт стандартов безопасности

ФСТЭК планирует к концу 2025 года представить проект стандарта по безопасной разработке систем искусственного интеллекта. Документ будет учитывать уязвимости, специфичные для ИИ, и станет дополнением к общим стандартам безопасности ПО. Стандарт поможет компаниям обеспечивать безопасность на всех этапах работы с данными — от сбора до хранения и разметки. Ожидается, что он снизит риски для информационной инфраструктуры и повысит доверие к ИИ-технологиям.

Подробнее →

05 сентября

Угрозы ИИ-агентам требуют усиления защитных мер

Новый тип атаки позволяет веб-сайтам манипулировать автономными ИИ-агентами, отправляя им вредоносные указания, невидимые для обычных пользователей. Это становится возможным благодаря способности сайтов определять ИИ по цифровому «отпечатку» и предоставлять агентам альтернативную версию страницы. Атака подтверждена на практике: агенты, основанные на моделях Claude, GPT и Gemini, успешно выполняли нежелательные действия. Безопасность ИИ требует маскировки отпечатка, разделения функций агентов и внедрения сканеров для обнаружения скрытых угроз.

Подробнее →

03 сентября

Снижение рисков для подростков через родительский контроль ИИ

Компания OpenAI внедряет меры безопасности для защиты молодых пользователей, включая систему родительского контроля, которая уведомляет родителей о возможных эмоциональных трудностях подростков. Для активации функции требуется связать аккаунты через электронную почту, а родители получают сигналы, если чат-бот фиксирует крайнюю степень душевного напряжения. Пользователи смогут ограничивать доступ к функциям, таким как запоминание диалогов, и настраивать поведение ИИ в зависимости от возраста. Меры направлены на снижение негативного влияния ИИ на психическое здоровье несовершеннолетних.

Подробнее →

28 августа

Совместное тестирование выявило слабые места в оценках безопасности моделей ИИ.

В ходе совместного исследования OpenAI и Anthropic были выявлены проблемы сикофанства у моделей GPT-4.1 и Claude Opus 4, а также различия в подходах к обработке запросов, приводящих к разным уровням галлюцинаций. Исследователи подчеркнули важность сотрудничества для выработки отраслевых стандартов безопасности и смягчения потенциальных рисков развития ИИ.

Подробнее →

20 августа

Недостаточная защита ИИ-систем может привести к серьезным последствиям.

В статье описан случай уязвимости корпоративного чат-бота Lena, которая позволила злоумышленникам внедрять вредоносный код, похищать cookie-файлы и запускать сценарии на машинах сотрудников поддержки. Атака могла использоваться для кражи данных, установки кейлоггеров, фишинговых атак и загрузки вредоносного ПО.

Подробнее →

30 июля

Anthropic предлагает систему «безопасных рамок разработки» для ИИ

В предложении Anthropic предлагается система «безопасных рамок разработки» (SRD), которая потребует от крупных компаний по разработке ИИ оценки и минимизации потенциальных катастрофических рисков, связанных с их моделями. Предложение также предусматривает публичную отчетность о SRD и карточку системы с описанием процедур тестирования модели, результатов оценки и мер по смягчению последствий.

Подробнее →

Первая «1 2 »Последняя

Моральные риски ИИ имеет 15 записей событий в нашей базе. Объединили похожие карточки: Моральные риски ИИ; Безопасность ИИ и другие.