Sony AI запустила первый этичный набор данных для тестирования ИИ
Sony AI представила набор данных Fair Human-Centric Image Benchmark, включающий 10 318 изображений с согласия 1 981 человека из более чем 81 страны, сопровождаемых подробными аннотациями. Набор используется для оценки справедливости компьютерных визуальных моделей и применяется в рамках внутренних процессов проверки этичности ИИ в компании.
По данным TheRegister, Sony AI представила новый набор данных Fair Human-Centric Image Benchmark (FHIBE), предназначенный для оценки справедливости компьютерных визуальных моделей. Работа над проектом проводилась с соблюдением этических норм и с согласия участников.
FHIBE содержит 10 318 изображений, собранных с согласия 1 981 человека из более чем 81 страны. Каждое изображение сопровождается подробными аннотациями — рамками, масками сегментации, настройками камеры и другими метками. Это позволяет использовать набор для широкого спектра задач в области компьютерного зрения.
Alice Xiang, глобальный директор по управлению ИИ в Sony Group и ведущий исследователь Sony AI, подчеркивает, что модели компьютерного зрения могут содержать смещения, которые проявляются, например, в неправильной классификации людей по признакам профессии или полу. Такие ошибки могут привести к неправомерным арестам, утечкам данных или другим последствиям.
Sony AI отмечает, что большинство существующих наборов данных собирались без согласия субъектов. В ряде случаев эти данные были получены из интернета или других неавторизованных источников. В результате, отмечают исследователи, эти наборы часто не соответствуют глобальному разнообразию и ограничены в применении.
FHIBE стал первым в своём роде набором, где сбор данных происходил с соблюдением прав участников. Это, по мнению авторов, делает его более надежным для тестирования и разработки моделей. В рамках исследования было установлено, что некоторые модели менее точно определяют людей, использующих местоимения «She/Her/Hers», из-за различий в прическах. Также выявлено, что при запросах о профессии модели могут подкреплять стереотипы, связывая определенные демографические группы с преступной деятельностью.
Sony AI уже применяет FHIBE в рамках внутренних процессов оценки этичности ИИ, соблюдая групповые нормы Sony Group AI Ethics Guidelines. Alice Xiang отмечает, что в США на федеральном уровне пока не принято подобных инициатив, в отличие от Европы и некоторых штатов, где регулирование ИИ включает требования по оценке смещений.
Интересно: Сможет ли внедрение наборов данных с этичным сбором повысить уровень доверия к ИИ, если большинство крупных игроков пока не готовы отказаться от «данных без прав»?

Sony AI и борьба за справедливость в компьютерном зрении
Этичный ИИ: больше, чем декларация
Sony AI представила набор данных FHIBE, который, на первый взгляд, кажется техническим инструментом для улучшения компьютерного зрения. Но на деле это — шаг в сторону более прозрачного и этичного подхода к сбору и использованию данных. В условиях, когда большинство крупных ИИ-проектов опираются на данные, собранные без прямого согласия пользователей, Sony демонстрирует альтернативу. Это не только набор изображений — это попытка переформулировать, как ИИ может взаимодействовать с реальными людьми.
Важно, что FHIBE включает 1 981 человека из более чем 80 стран. Это означает, что данные не ограничены узкими демографическими группами, а отражают реальное разнообразие. При этом к каждому изображению прилагаются аннотации, что делает его полезным для широкого спектра задач — от распознавания лиц до анализа сцен. Такой подход позволяет не только улучшить точность моделей, но и выявлять смещения, которые могут привести к дискриминации.
Важный нюанс: Сбор данных с согласия участников — это не только вопрос этики, но и стратегическое преимущество. Такие наборы данных становятся более надежными для тестирования и могут использоваться в регулируемых отраслях, где требуются доказательства отсутствия смещений.
Скрытые победители и проигравшие
Введение FHIBE запускает цепочку последствий, которые могут повлиять на рынок ИИ. На первый взгляд, Sony AI выступает как лидер в области этичного ИИ. Но на деле, основные победители — это те, кто будет использовать этот набор для проверки и улучшения своих моделей. Это могут быть как стартапы, так и крупные компании, стремящиеся соответствовать требованиям регуляторов.
Однако есть и проигравшие. Компании, которые опираются на данные, собранные без прямого согласия, рискуют потерять конкурентное преимущество. Их модели могут быть признаны менее надежными в условиях, где требования к этичности ИИ становятся все жестче. Особенно это касается регионов, таких как Европа, где регулирование уже включает обязательную проверку на смещения.
В России, где регулирование ИИ пока не достигло уровня ЕС, ситуация иная. Локальные компании могут воспользоваться отсутствием жестких требований, чтобы продолжать использовать данные без прозрачности. Однако, если в будущем регуляторы начнут требовать этических аудитов, то отсутствие таких наборов данных может стать препятствием для выхода на международные рынки.
Важный нюанс: Этичный ИИ — это не только вопрос морали, но и вопрос доступа к глобальным рынкам. Компании, которые не будут учитывать этичность сбора данных, могут оказаться отброшенными в сторону при формировании новых стандартов.
Новые правила игры
Sony AI с помощью FHIBE устанавливает новое правило: ИИ не может быть эффективным, если он не учитывает разнообразие и права тех, кто в него вовлечен. Это правило начинает влиять на то, как компании подходят к сбору данных, как они оценивают свои модели и как они взаимодействуют с регуляторами.
Для российского бизнеса ключевой задачей становится адаптация к этим изменениям. Даже если сейчас регулирование ИИ в стране не требует этических наборов данных, в долгосрочной перспективе компании, которые хотят развиваться за рубежом, должны начать работать с такими инструментами. Это может включать не только использование наборов вроде FHIBE, но и разработку собственных, соответствующих международным стандартам.
Важный нюанс: Этичность ИИ становится не декларацией, а инструментом конкурентоспособности. Компании, которые начнут применять этические наборы данных сейчас, получат преимущество в будущем.
Рост потребности в стандартах и проверенных наборах данных
Разработка наборов данных вроде FHIBE становится особенно актуальной на фоне роста интереса к ИИ в различных отраслях. Например, в финансовый сектор в 2024 году было вложено 56,8 млрд рублей, а технологии компьютерного зрения применяются в 72,3% организаций, внедривших ИИ [!]. Это подчеркивает важность надежных и этичных решений, особенно в задачах, связанных с безопасностью и идентификацией.
Параллельно, рост числа учёных, использующих ИИ, до 84% в 2025 году сопровождается снижением доверия к технологиям. 64% участников выразили обеспокоенность неточностями ИИ, а 58% — вопросами безопасности и конфиденциальности [!]. Эти данные указывают на растущую потребность в стандартах и проверенных наборах данных, которые позволят снизить этические риски и повысить прозрачность.
Таким образом, инициатива Sony AI может стать важным шагом в формировании нового подхода к разработке и применению ИИ, где этичность и прозрачность становятся неотъемлемыми элементами.
Источник: The Register