来源:整理自数字生命卡兹克、新智元、腾讯科技、每日经济新闻
当地时间2月15日,OpenAI 在其官网发布了文生视频模型 Sora。根据官网的演示,用户在 Sora 上输入一段文字指令,瞬间可以生成一段60秒、有电影质感的视频。
OpenAI 在其官网上展示了由 Sora 生成的48个视频,这些视频对人物、动物或其他物品的特写纤毫毕现,背景丰富、细节生动、运镜流畅,从一些画面中能感受到丰富的情感。
据外媒报道,Sora的推出标志着AI研究的一个重要里程碑。凭借其模拟和理解现实世界的能力,Sora为未来实现通用人工智能(AGI)奠定了基础。从本质上讲,Sora不仅仅是生成视频,而是在突破AI所能完成的极限。
OpenAI CEO阿尔特曼在X平台上透露,Sora目前已向红队成员(red teamers,指的是误导信息、仇恨内容和偏见内容等方面的专家)和部分创意人士开放。
英伟达人工智能研究院首席研究科学家Jim Fan在X平台发文表示,“如果你还是把Sora看成DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。他是对许多世界的模拟,无论是真实的还是幻想的。”他认为,Sora是一个可学习的模拟器,或“世界模型”。
在他看来,Sora代表了文本生成视频的GPT-3时刻。而针对部分称“Sora并没有学习物理,仅仅是在二维空间里对像素进行操作”的声音,他表示,Sora所展现的软物理仿真实际上是一种随着规模扩大而出现的特性。Sora必须学习一些隐式的文本到3D、3D变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。它必须理解游戏引擎的概念,才有可能生成视频。
对于Sora的最大优势,360集团创始人、董事长周鸿祎说,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”他同时称,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年、20年的问题,可能一两年很快就可以实现。”
在发布新技术的同时,OpenAI 也发布了一份关于 Sora 的详细技术报告。技术报告总结出了 Sora 的六大核心优势:
准确性和多样性:Sora的显著特征之一是能够准确解释长达135个单词的长提示。它可以准确地解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。这一新工具可将简短的文本描述转化成长达1分钟的高清视频,涵盖广泛的主题。
强大的语言理解:OpenAI利用Dall-E模型的re-captioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。
以图/视频生成视频:Sora除了可以将文本转化为视频,还能接受其他类型的输入提示,如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务。
视频扩展功能:用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。
优异的设备适配性:Sora具备出色的采样能力,从宽屏的1920x1080p到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。
场景和物体的一致性和连续性:Sora可以生成带有动态视角变化的视频,人物和场景元素在三维空间中的移动会显得更加自然。
我们探索了在视频数据上进行大规模训练生成模型。具体来说,我们联合训练了文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们的最大模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模是朝着构建物理世界通用模拟器的有前途的路径。
本技术报告重点介绍:(1)我们将各类视觉数据转换为统一表示的方法,该方法能够实现生成模型的大规模训练;(2)Sora能力和局限性的定性评估。
我们发现,Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像,长达一分钟的高清视频。
Sora目前展现出许多限制。例如,它并没有准确地模拟许多基本互动的物理效应,比如玻璃破碎。我们相信,Sora目前的能力表明,持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的有希望的道路。
责任编辑:张薇