OpenAI запускает видео с аудио — и меняет правила игры
OpenAI выпустила второе поколение модели синтеза видео Sora 2, которая поддерживает генерацию видеороликов с синхронизированным диалогом и звуковыми эффектами, а также интегрирована в социальное приложение для iOS. Модель демонстрирует улучшения в физических симуляциях, логической связности кадров и поддерживает функцию вставки лица пользователя в сгенерированные сцены.
Развитие технологий синтеза видео ускоряется
По данным OpenAI, компания представила второе поколение модели синтеза видео Sora 2, которая теперь способна генерировать видеоролики в различных стилях с синхронизированным диалогом и звуковыми эффектами. Это первый случай, когда OpenAI добавила аудио-функционал к своим видео-моделям. Ранее в мае Google представила Veo 3, а совсем недавно Alibaba анонсировала модель Wan 2.5, которая также поддерживает генерацию звука. Таким образом, OpenAI вступает в уже активную гонку за улучшением синтеза видео.
Новая модель демонстрирует улучшения в визуальной последовательности и может следовать более сложным инструкциям, сохраняя логическую связность между кадрами. OpenAI называет Sora 2 своего рода «моментом GPT-3.5 для видео», сравнивая это достижение с прорывом ChatGPT в текстовых моделях. Видео, сгенерированное с помощью Sora 2, включает в себя реалистичные сцены, например, с участием гиперреалистичного образа главы OpenAI Сама Альтмана, говорящего перед камерой в необычных фоновых декорациях.
Улучшения в физических симуляциях
Sora 2 демонстрирует значительное повышение физической точности по сравнению с предыдущей версией модели. OpenAI утверждает, что модель теперь способна симулировать сложные физические движения, такие как упражнения на Олимпийских играх и тройные аксель-прыжки. Ранее, вскоре после запуска Sora 1 Turbo, наблюдались сбои в генерации подобных видео, которые OpenAI теперь якобы устранила.
Компания признает, что модель всё ещё допускает ошибки, но рассматривает Sora 2 как важный шаг на пути к созданию «универсальных симуляторов мира и робототехнических агентов», которые, по мнению OpenAI, могут «фундаментально изменить общество». При этом модель остаётся трансформерной, то есть работает на основе сопоставления шаблонов, а не на основе понимания физических законов.
Новый формат выхода: социальное приложение
Помимо технических улучшений, OpenAI делает крупный шаг в сторону от научно-исследовательского подхода, интегрируя модель Sora 2 в социальное приложение для iOS. Приложение уже запущено в США и Канаде по приглашению, с планами расширения. Пользователи могут создавать, редактировать и делиться видео, а также просматривать персонализированные потоки контента.
Особенностью приложения является функция «cameos», позволяющая пользователям вставлять своё лицо в любую сцену, сгенерированную моделью. Для этого достаточно один раз записать видео и аудио, после чего модель будет использовать эти данные для вставки пользователя в любую сгенерированную сцену.
Пользователи, подписанные на ChatGPT Pro, получат доступ к более высококачественной версии модели — Sora 2 Pro. В будущем модель будет доступна через API для разработчиков. Старая версия Sora 1 Turbo останется в обращении, и уже созданные видео останутся в личных библиотеках пользователей.
Риски и меры безопасности
С увеличением возможностей модели растёт и риск её злоупотребления. OpenAI признаёт, что приложение может быть использовано для создания несанкционированных видео, включая дипфейки. Ранее аналогичные технологии уже использовались в случаях, приведших к буллингу, судебным искам и даже суицидам.
Для борьбы с этим OpenAI внедрила защитные меры, включая автоматические системы безопасности и ручную модерацию. Особое внимание уделено функции «cameos»: пользователи могут управлять доступом к своему лицу, отзывать разрешения и удалять видео, в которых они используются.
Кроме того, компания заявила, что приложение разработано с учётом социальных проблем, связанных с социальными сетями. OpenAI утверждает, что использует «новый класс рекомендательных алгоритмов», которые не оптимизируют время пребывания в приложении и не зависят от традиционных метрик вовлечённости. Приоритет — стимулировать создание, а не потребление.
Интересно: Какие реальные последствия для пользователей и общества могут иметь новые функции Sora 2? Стоит ли ожидать роста спроса на подобные технологии или, наоборот, усиления регулирования?
Ускоряющаяся гонка за синтезом видео: кто выигрывает, а кто теряет?
Технологии синтеза видео: не просто инструмент, а новый язык общения
С каждым новым поколением моделей вроде Sora 2, Veo 3 или Wan 2.5 границы между реальным и сгенерированным контентом стираются всё быстрее. Это не просто улучшение качества изображения или звука — это эволюция способа взаимодействия с цифровым миром. Видео перестаёт быть пассивным объектом потребления, становясь активным инструментом создания, манипуляции и даже влияния. Особенно это заметно в контексте социальных сетей, где контент уже давно стал неотъемлемой частью личности.
OpenAI, интегрируя Sora 2 в социальное приложение, делает важный шаг от закрытых исследовательских лабораторий к массовой доступности. Это открывает широкий спектр возможностей: от творческих экспериментов до маркетинга, образования и даже политики. Но вместе с этим возникает и новая реальность — контент, который невозможно отличить от реального, становится не только мощным, но и опасным инструментом.
Тренд: В ближайшие годы синтез видео станет частью повседневного цифрового опыта, как и раньше стало голосовое взаимодействие или мессенджеры. Кто первым освоит этот инструмент, тот получит преимущество в коммуникации и влиянии.
Угрозы и ответные меры: баланс между инновациями и контролем
Однако, как и с любым технологическим прорывом, рост возможностей неизбежно сопровождается ростом рисков. Дипфейки, дезинформация, цифровое мошенничество — список возможных злоупотреблений длинен. Особенно критичен функционал, позволяющий вставлять лицо пользователя в любую сгенерированную сцену. Это не просто вопрос этики — это вопрос безопасности личности в цифровом пространстве.
OpenAI пытается смягчить эти риски через автоматическую модерацию, ручной контроль и ограничения на использование собственного изображения. Но, как показывает практика, технические меры никогда не являются полным решением. В России, где уже сейчас наблюдается активное использование подобных технологий в медиа и политике, подобные угрозы могут стать особенно актуальными. Контроль над цифровой идентичностью станет новым фронтальным вопросом, как в правовом, так и в технологическом смысле.
Обратите внимание: В ближайшие 12–18 месяцев можно ожидать усиления регулирования технологий синтеза видео, особенно в странах с высоким уровнем цифровой активности и слабой подготовкой к цифровой дезинформации.
Новые игроки и новые правила игры
Гонка за синтезом видео уже не ограничивается только OpenAI. Google, Alibaba, Meta⋆ и другие игроки активно развивают свои модели. Это приводит к интенсификации инвестиций, ускорению инноваций и, как следствие, снижению барьеров для доступа. В конечном итоге, технологии, которые сегодня доступны лишь крупным корпорациям, через несколько лет могут оказаться в руках малого бизнеса, индивидуальных авторов и даже государственных структур.
Для российского бизнеса это открывает как возможности, так и риски. С одной стороны, использование подобных технологий в маркетинге, обучении, виртуальных консультациях может дать серьёзное конкурентное преимущество. С другой — недостаток регулирования, ограниченные ресурсы для разработки собственных моделей, а также зависимость от иностранных технологий могут создать дополнительные сложности.
К чему это ведет? В ближайшие годы ключевым вызовом для российских компаний станет не только освоение новых технологий, но и обеспечение цифровой безопасности, особенно в условиях, когда контент может быть создан и использован без явного следа.
Масштабирование ИИ-инфраструктуры: инвестиции и стратегии
OpenAI активно расширяет свою ИИ-инфраструктуру. В рамках проекта Stargate компания строит пять новых центров обработки данных в США с общей мощностью 7 ГВт, что эквивалентно энергопотреблению более 5 млн домохозяйств. Три центра создаются в партнёрстве с Oracle, два — с SoftBank, а финансирование проекта обеспечивает Nvidia в размере $100 млрд. Это позволяет ускорить создание вычислительных ресурсов нового поколения для обучения более мощных моделей искусственного интеллекта.
Ключевые тезисы:
- Инвестиции в ИИ-инфраструктуру продолжают расти: OpenAI, Oracle, Meta⋆ и другие компании вкладывают триллионы долларов в создание центров обработки данных.
- Зависимость от Nvidia остаётся значительной: компания вливает $100 млрд в развитие OpenAI.
- Стратегия OpenAI меняется: ранее эксклюзивно сотрудничавшая с Microsoft, компания теперь использует облачные сервисы Oracle и других партнёров.
- Рост конкуренции в сфере AI-облачных решений: это стимулирует инновации, но также усложняет выбор для бизнеса.
Рекомендация: Для российских компаний важно не только отслеживать тенденции в развитии ИИ-инфраструктуры, но и оценивать риски зависимости от иностранных технологий, а также возможности локализации решений.