今天凌晨,OpenAI 发布了全新的 AI 视频生成工具 Sora,迅速成为各大新闻头条的焦点。就连一向与 OpenAI 关系紧张的马斯克也不得不承认 Sora 的强大,并称赞道:「未来几年,人类借助 AI 的力量将创造出卓越的作品。」
Sora 的核心优势在于能够根据文本描述,生成长达 60 秒的连贯流畅视频。这些视频不仅包含细腻复杂的场景、生动的角色表情,还能实现复杂的镜头运动。与其他只能生成几秒短视频的工具相比,Sora 的一分钟时长无疑是一次技术上的飞跃。
在视频的真实性、长度、稳定性、一致性、分辨率以及对文本的理解方面,Sora 均展现出了目前最佳的水平。让我们先来欣赏一下官方发布的演示视频片段:
Prompt: 美丽的雪中东京城熙熙攘攘。镜头穿梭于繁忙的街道,跟随几位享受雪景并在附近摊位购物的人。樱花花瓣与雪花在风中翩翩起舞。
在这段视频中,无人机视角下的一对情侣穿梭于繁华的城市街道,樱花花瓣与雪花交织,画面美不胜收。
OpenAI 发布了一份详细的技术报告,揭示了 Sora 背后的技术原理。Sora 的成功离不开以下几个关键点:
视觉块嵌入代码(Patches): 受到 LLM 成功经验的启发,OpenAI 引入了视觉块嵌入代码。这是一种高度可扩展且有效的视觉数据表现形式,能够极大提升生成模型处理多样化视频和图像数据的能力。
低维潜在空间压缩: OpenAI 首先将视频数据压缩至低维潜在空间,再将其分解为时空嵌入,从而将视频转化为一系列编码块。
解码器模型: 训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。
基于 Patches 的表现形式: 采用基于 Patches 的表现形式,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的 Patches 按照需要的大小排列成网格,来控制最终视频的大小和形式。
无需裁切素材: Sora 训练时没有对素材进行裁切,能够直接按照不同设备的原生宽高比创建内容。
高质量构图与布局: 在视频的原生宽高比上进行训练,显著提升了视频的构图与布局质量。
尽管 Sora 表现出色,OpenAI 也坦率地承认了其当前存在的局限性。例如,Sora 无法精确模拟复杂场景的物理效应,如玻璃破碎等基本物理互动。
OpenAI 发现,在大规模训练下,Sora 展示出了一系列引人注目的涌现能力,能够在一定程度上模拟真实世界中的人、动物和环境。这些能力并非基于对三维空间或物体的特定预设,而是由大规模数据驱动产生的。
三维空间的连贯性: Sora 能生成带有动态视角变化的视频,确保人物和场景元素在三维空间连贯移动。
远距离连续性与物体持久性: 即使人物、动物或物体被遮挡或移出画面,Sora 也能保持长时间视频的连续性。
数字世界的模拟: Sora 还能模拟数字化过程,如视频游戏,只需提及「Minecraft」等字样,就能激发其相关能力。
OpenAI 将 Sora 视为「能够理解和模拟现实世界的模型的基础」,相信其能力「将是实现 AGI 的重要里程碑」。
随着 OpenAI Sora 的加入,AI 视频生成领域将掀起滔天巨浪。独立创作者的游戏规则将会彻底改变,任何人只要有创意和想法,就可以使用 Sora 来生成自己的视频内容。创作门槛的降低,也意味着独立创作者将会迎来黄金时代。
正如《三体》中所说,「主不在乎」,无论目前的竞争态势如何,AI 视频生成领域都可能会被新的技术和创新所颠覆。而 Sora 的入局仅仅只是个开始,远不是终点。
👉 野卡 WildCard | 一分钟注册,轻松订阅海外线上服务