北京时间2月16日凌晨,OpenAI正式发布了文本到视频生成模型Sora,标志着其在视频生成领域的强势加入。此前,Runway、Pika、谷歌和Meta等公司已在这一领域展开竞争。
OpenAI表示,Sora能够根据简短的描述或静态图片,生成类似电影的1080p场景,其中包含多个角色、不同类型的动作和丰富的背景细节。Sora的特别之处在于:
语言理解能力:Sora能够准确理解并执行用户输入的prompt,生成充满活力的角色和情感表达。
物理世界模拟:Sora不仅理解用户需求,还能模拟物理世界中的存在方式,生成连贯且合理的视频。
多样化风格:Sora支持生成真实感、动画、黑白等多种风格的视频,最长可达一分钟,远超大多数文本到视频模型。
OpenAI在Sora发布后迅速公布了技术报告,展示了其在大规模视频数据生成模型上的探索。具体技术亮点包括:
统一表示方法:通过将视觉数据转化为统一表示,Sora能够生成不同时长、分辨率和宽高比的视频。
视频压缩网络:Sora通过训练降低视觉数据维度的网络,在压缩的潜在空间中生成视频。
时空patches:Sora利用时空patches作为Transformer的tokens,实现对不同分辨率、持续时间和长宽比的视频和图像生成。
扩散Transformer:Sora是一个扩散模型,结合Transformer架构,能够生成长达一分钟的高质量视频。
Sora不仅能够根据文本生成视频,还可以使用图像或视频作为输入,执行多种编辑任务,例如:
图像动画化:将静态图像转化为动态视频。
视频内容拓展:在视频的开头或结尾扩展内容,实现视频的无限延长。
视频风格编辑:通过SDEdit技术,改变视频的风格和环境。
尽管Sora展现了强大的能力,但目前仍存在一些局限性,例如:
物理交互模拟不足:Sora无法准确模拟某些基本物理现象,如玻璃碎裂。
长时间样本一致性:在长时间视频生成中,可能会出现不一致性或物体自发出现的问题。
OpenAI认为,持续扩展视频模型的规模是开发物理和数字世界高能力模拟器的有前途的方向。
👉 野卡 WildCard | 一分钟注册,轻松订阅海外线上服务
Sora的发布标志着视频生成技术的一大飞跃,其强大的语言理解和物理世界模拟能力为未来应用提供了无限可能。尽管存在一些局限性,但Sora的表现证明了视频生成模型的巨大潜力。
关于Sora的更多技术细节,可参考OpenAI的官方技术报告。