今年2月15日,Open AI发布了第一款文生视频模型Sora,能够生成一分钟的高保真视频,一石激起千层浪。Open AI自称Sora是“世界模拟器”。官网给出的定义是:Creating video from text Sora is an AI model that can create realistic and imaginative scenes from text instructions.
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
百度百科:Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” [10]),于2024年2月15日(美国当地时间)正式对外发布。
Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求 [1-2] [4]。
Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步 ,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。
特斯拉CEO埃隆·马斯克(Elon Musk)直言:人类愿赌服输。
360公司董事长周鸿祎:Sora意味着AGI的应用从10年缩短为1年,另外Open AI手里应该还藏着一些秘密武器,包括GPT-5,机器自我学习自动产生内容等,中美AI差距有可能还在加大。
前阿里VP贾扬清:真的非常牛。
胡锡进:说Sora不代表什么的人太不负责任了
英伟达高级研究科学家兼人工智能代理负责人Jim Fan: Sora代表了文本生成视频的 GPT-3 时刻。
一位AI创业者对Sora评价是:“没有想到文生视频的GPT时刻能来的这么快。”
纽约大学数据科学中心的助理教授谢赛宁:Sora应该是建立在一种混合模型DiT之上(DiT是一个带有Transformer主干的扩散模型,它= [VAE编码器+ViT+DDPM+VAE解码器])。
实验电影人、AIGC艺术家@海辛:“我还是更相信开源社区,OpenAI总是提供很好的范式,
南洋理工大学研究工程师周弈帆:为从技术贡献上来看,Sora其中一项创新就是使用了一种不限制输入形状的DiT。
Sora到底是什么?相比同类产品如Runway和Pika强在哪?
目前市面上文生视频模型的主流技术路线主要有两种:一种基于Transformer模型的技术路线,即从文本及图像中生成,另一种则是基于扩散模型(Diffusion model),如 Runway。
Sora牛就牛在是融合了两者的Diffusion Transformer模型,通过扩散模型(DALL-E3)和转换器架构(ChatGPT)组合,Sora不用预测序列中的下一个文本,而是预测序列中的下一个“Patch”。
这意味着Sora是基于“Patch”,而非整个视频进行训练的,有点类似ChatGPT用Token处理文本一样处理视频,因此,Sora可以高效处理更多的数据,输出质量也会更高。
事实上,Sora公布的演示视频最令人印象深刻的特点是逼真地模拟物理世界,视频效果吊打市面上同类产品如Runway和Pika。
Sora的背后团队再次最新公布新的生成视频作品,这回连同一场景下的多角度机位都出现了。
一位行走在东京街道上时尚女性的视频几乎成了Sora的“代表作”。这段一分钟的视频里,从主要人物到背景人物,从近景到远景,细致、逼真的画面和流畅转换的镜头几乎以假乱真。
Sora的出现,Sora的问世,标志着大模型竞争已经由文字、图片上升至视频,AI训练量大幅提升,对于算力的需求呈几何级增长。对于好莱坞电影工业会产生重大影响,甚至畅想未来拍大片只需要将剧本文字投喂给Sora即可,由此带来的冲击是导演、摄像、化妆、道具、剪辑、配音等一大批人。