今天凌晨,OpenAI 推出了一款名为 Sora 的视频生成工具,立刻吸引了全球科技界的目光。这款工具以其强大的 AI 视频生成能力,刷新了业内对视频创作的认知。
就连经常与 OpenAI 唇枪舌剑的 Elon Musk 也在社交媒体上称赞道:“未来几年,人类将凭借 AI 技术创造出令人叹为观止的作品。”而这个时代,显然已经到来。
Sora 的核心亮点在于,它能够基于简单的文本描述,生成长达 60 秒的连贯视频。其成果包含复杂的镜头运动、细腻的场景细节以及生动的角色情感表现。
与那些只能生成数秒内容的对手相比,Sora 的一分钟时长直接打破壁垒,从画质、稳定性到内容涵盖范围均展现出领先水平。例如,在 OpenAI 的官方演示中,以下的生成内容充分展现了其潜力——
Prompt: “美丽、繁忙的雪东京街景。镜头穿梭于繁华街头,捕捉人们在雪花与樱花飞舞中的生活。”
生成的画面中,镜头以无人机视角跟随情侣,四溢生机与诗意。多镜头切换依旧丝滑流畅,令人联想到电影的高品质后期。Sora 毫无疑问是一次降维打击。
另外,网友的创作也展现了 Sora 的突破。例如,一位用户在短短 15 分钟内,利用 Sora、Eleven Labs 的配音工具以及简单的音乐样本,完成了 20 秒的自然纪录片预告片。从文本、音频到视频的整合,让我们看到了内容创作领域的无限可能。
那么,支撑 Sora 如此强大表现的核心技术是什么?
根据 OpenAI 发布的技术报告,Sora 引入了一种全新的视觉数据表示形式,称为 视觉块嵌入代码(patches)。这一技术借鉴了大规模语言模型(LLM)的成功经验,并将其应用于视觉处理。
低维潜在空间编码
视频数据首先被压缩至一个低维潜在空间,随后提取出时间和空间上的嵌入信息。这些嵌入信息就像拼图的拼块,通过有效排列和组合后可以重现视频。
解码还原清晰画面
在经过潜在空间的训练后,Sora 的解码器会将这些抽象的数据还原为像素级的高分辨率影像。得益于这种方式,Sora 能够对不同分辨率及比例的视频做出高度优化的生成。
此外,基于高效的 patch 嵌入形式,Sora 能够支持多种分辨率、视频长度以及宽高比优化的生成,适配不同设备和屏幕。原生素材未被裁切直接训练,使得 Sora 能实现几乎完美的内容布局。
除了传统的文本描述生成视频,Sora 还支持图片和已有视频输入,拓展了创作者的工具箱。例如,用户可以使用 Sora 制作无缝循环的视频片段、为静止图片增加动态效果或者延长视频播放时间。以下是 Sora 的典型创作应用场景:
将文字直接转化为视频内容
利用图片生成动态动画效果
编辑现有视频,改变其风格
连接两个风格迥异的视频,保持流畅且自然的过渡
举例来说,研究团队展示了利用 Sora 将静态的自然场景转换为逼真的动态影像,甚至创造出极为复杂的视觉效果,如形成“飘动的云朵拼出 ‘SORA’ 字样”的视频。
更令人惊艳的是 Sora 的风格迁移能力,能够在无明确示例的情况下实现画风、环境的自由变换。这不仅降低了创作门槛,还让内容创作更具灵活性。
在模型训练的过程中,Sora 展现了众多涌现能力,比如对三维空间的理解、远距离持续性的表现、以及连续的风格化转换。这一成就暗示了 AI 的发展方向——构建「世界模型」。
世界模型的核心目标是,通过模拟并学习现实中的物理、惯性和逻辑规律,让 AI 系统能够自主理解现实世界。例如,世界模型能够通过几帧物体运动画面预判其下一步动态。这样的预测能力使得 AI 更接近人类“常识”。
全球科技行业普遍认为,Sora 的成功是世界模型雏形的重要验证。甚至有研究者表示,未来如 GPT 这样的自回归语言模型,可能会被更加智能和直观的世界模型所取代。
OpenAI 的 Sora 已经成为了 AI 视频生成领域的一颗新星。其到来不仅仅是技术能力的革新,还意味着 AI 创作内容的准入门槛大幅降低,从而为独立创作者开启了一个全新平台。
随着 Sora 的崛起,一些现有的市场方案如 Runway 和 Stable Video Diffusion 或将面临冲击。而对普通用户来说,Sora 提供了一个能轻松、便捷生成高质量视频的工具,不再需要高昂预算或繁琐技术门槛。
正如科幻作品《三体》中所言,“这是一个纪元的开始”。Sora 的问世并非终局,而是迈向 AI 模拟物理世界更高目标的重要一步。