Подписаться ВК
 15.02.2024 в 21:04   OpenAI

OpenAI Sora – самый реалистичный генератор видео из текста на основе нейросетей на сегодняшний день

Поделиться
с друзьями:

OpenAI Sora - новая генеративная модель на основе нейросетей OpenAI, предназначенная для создания видео на основе текстовых подсказок. Эта модель, находящаяся на стадии тестовой версии, способна создавать фотореалистичные видеоролики продолжительностью до 60 секунд. Ее особенностью является способность понимать, как все существует в реальном мире, и сочетать несколько кадров без искажения их характера или стиля.

Основной целью OpenAI является обучение моделей, которые помогут людям решать проблемы, связанные с взаимодействием в реальном мире. Для этого они учат искусственный интеллект понимать и воспроизводить физический мир в динамике.

Согласно данным OpenAI, Sora способна создавать высокодетализированные сцены, включающие сложное движение камеры и несколько персонажей. С технической точки зрения Sora представляет собой диффузионную модель. Начальным этапом является видео, напоминающее статический шум, которое постепенно преобразуется в конечный результат путем поэтапного удаления шума.

Обучая модель, OpenAI использует видео и изображения, рассматривая их как наборы более мелких единиц данных, называемых патчами, которые схожи с токенами в модели GPT. Это позволяет модели обрабатывать более широкий набор визуальных данных, включая различные продолжительности, разрешения и соотношения сторон.

OpenAI подчеркивает сложность проблемы, которую они решили в Sora - сохранение объектов неизменными, даже когда они временно выходят из поля зрения и сохранение визуального стиля. Благодаря возможности работать со множеством кадров одновременно, модель может предварительно знать, что произойдет и планировать это, что является важным достижением.

OpenAI продемонстрировала несколько впечатляющих видеороликов, созданных с помощью Sora. Среди них есть исторические кадры Калифорнии во время золотой лихорадки, стильная женщина, идущая по улицам Токио и даже играющие на снегу золотистые ретриверы. Однако, некоторые из сгенерированных видеороликов могут показывать физически нереальное движение, признает OpenAI. Например, видео, где человек идет по конвейерной ленте в неправильном направлении, где песок превращается в стул и происходит нелогичное движение.

Вот примеры использования Sora:

Промпт:

По улицам Токио гуляет стильная женщина. Это место, заполненное ярким неоновым светом и анимированными вывесками, полностью настроено на создание эффекта атмосферы мегаполиса. В ее наряде преобладают черные тона: изысканная кожаная куртка, длинное красное платье и элегантные ботинки, а также аксессуары в виде модной черной сумочки. Весь образ дополняют стильные солнцезащитные очки и яркая красная помада, которые придают ее облику неповторимость. Женщина прогуливается по улице с уверенностью и беззаботностью. Взглянув на мокрую дорожку, она замечает, как отражения от света создают зеркальный эффект мерцающих огней. Много пешеходов с неторопливым шагом прогуливаются рядом с ней, добавляя ощущение пульсирующей жизни города.

Промпт:

На вершине скалистого берега Гарай-Пойнт в Биг-Суре, дрон даёт возможность зрителю свершить небывалое путешествие и увидеть грандиозное спектакли природы. Успокоенный шипением волн, дрон показывает все великолепие местного пляжа. Белоснежные кончики волн беспрерывно покрывают песчаный берег, создавая радужные брызги. Золотистый свет, проникающий сквозь облака, благосклонно освещает глыбистый берег, раскрывая его весь очаровательный мрачный вид. И на горизонте виднеется изольда с маяком, ожидая своего нового паломника. Хотя это место является симбиозом скал и воды, растительная зелень покрывает этот отдаленный уголок земли. Добраться до пляжа с дороги - настоящее испытание для автомобилистов, но для зрителя это очередной шедевр природы. Кончики скал торжественно молотят океан, словно приоткрывая завесу величия природы и неповторимый ландшафт Тихоокеанского побережья. Вид, который отображается в объективе дрона, безукоризненно передает первозданную красоту побережья и его беспощадный облик, оставляя зрителя в полнейшем восторге.

Промпт:

В уютном художественном стиле 3D, основанным на освещении и текстуре, перед нами предстает картина анимационной сцены. Крупным планом мы видим невысокого пушистого монстра, который стоит на коленях рядом с тающей красной свечой. Атмосфера этого снимка пропитана удивлением и любопытством, потому что монстр с широко открытыми глазами и ртом уставился на пламя. Его поза и выражение лица передают неподдельное чувство невинности и игривости, словно он впервые исследует окружающий мир. Создание такой атмосферы дополняется использованием теплых тональностей и драматического освещения, что только еще сильнее усиливает гармонию этой уютной картины.

Промпт:

экскурсия по художественной галерее со множеством прекрасных произведений искусства в разных стилях.

Промпт:

В парижском кафе сидит седовласый мужчина лет шестидесяти с глубокими размышлениями о истории Вселенной. Камера находится очень близко к нему, позволяя нам рассмотреть каждую деталь его внешности: шерстяное пальто, рубашка на пуговицах, коричневый берет и очки. Он выглядит очень почетно, словно профессор, задавшись вопросом, на который, кажется, нашел ответ. В глазах у него видно сосредоточение, они фиксируют взгляд за кадром на проходящих людях.

Освещение в кафе создает особую атмосферу, оно напоминает кинематографическое, с золотистым светом и тени на лице героя. Вдали мы видим парижские улицы и здания, добавляющие картине еще больше очарования. Глубина резкости позволяет нам сосредоточиться на седовласом мужчине, придавая кадру особую глубину.

Заключительное крупное план позволяет нам увидеть тонкую улыбку на лице героя, рот которого закрыт. Он выглядит удовлетворенным, словно только что раскрыл тайну жизни. Все эти детали подчеркивают кинематографичность момента, будто мы смотрим на сцену из фильма, снятого на 35-мм пленку.

Промпт:

Щенки золотистого ретривера играют в снегу. Их головы высовываются из снега, присыпанные снегом.

В настоящее время новая модель Sora еще не доступна широкой публике, так как OpenAI работает над повышением ее безопасности. Это включает в себя отказ от запросов на ввод текста, содержащего крайнее насилие, сексуальный контент, разжигающие ненависть изображения или нарушающие права интеллектуальной собственности третьих лиц или права на неприкосновенность частной жизни знаменитостей. OpenAI работает с экспертами в областях дезинформации, разжигания ненависти и предвзятости, чтобы определить границы модели.

Однако, несмотря на все исследования и испытания, OpenAI не может предугадать все полезные и злоупотребляющие способы использования их технологии. Именно поэтому они считают, что обучение на реальных примерах является важной частью создания и выпуска все более безопасных систем искусственного интеллекта.

OpenAI также планирует применить методы безопасности, созданные для DALL-E-3, к модели Sora. Они также использовали метаданные C2PA для обнаружения видео, созданных с помощью искусственного интеллекта.

 
Комментарии: