寥寥数语就能生成一段视频 OpenAI发布文生视频模型Sora

发布时间: 2024年02月20日 文章来源: 人民邮电报

输入“中国农历龙年新年庆祝”,Sora生成的视频截图。 来源:OpenAI官网

Sora生成的一位祖母过生日的视频截图。 来源:OpenAI官网

生成式人工智能领域迎来爆炸性进展。美国当地时间2月15日,OpenAI在其官网发布文生视频模型Sora。根据官网的演示,用户在Sora上输入一段文字指令,瞬间可以生成一段60秒、有电影质感的视频。

OpenAI在其官网上展示了由Sora生成的48个视频,这些视频对人物、动物或是其他物品的特写纤毫毕现,背景丰富、细节生动、运镜流畅,从一些画面中能感受到丰富的情感。一个提示词为“中国农历龙年新年庆祝”的视频展示了中国传统的舞龙场景,龙头活灵活现,龙身灵活游动,在观看舞龙的人群中,有人挥舞着小红旗,有人拿出手机拍摄,尽管不是主角,但他们也被Sora赋予了欢度春节的快乐表情。在另一个演示视频里,一位头发梳得整整齐齐的祖母站在木制餐桌旁,桌上有一个五颜六色的生日蛋糕,上面摆放着许多蜡烛,她身体前倾,眼睛里闪耀着幸福的光芒,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜,在这个场景中,Sora给视频赋予温暖的色调和柔和的灯光,增强了气氛。难怪有网友看了视频展示后,评论说:不久的将来,把一个剧本输入进去,一部电影就能自动生成了。

近年来,随着大模型热潮的扑面而来,一些人工智能创业企业也推出了文生视频的模型。比如,去年4月一家AI初创公司就推出一项技术,只需在电脑屏幕的输入框里输入一个句子,就可以生成几秒钟略显混乱的视频。但这些模型激起的水花远不如Sora,业内人士分析表示,Sora不是一个简单的视频生成器,而是一个数据驱动的物理引擎,对虚拟和现实世界进行模拟。在这个过程中,模拟器通过去噪等方法来学习复杂的视觉渲染,构建出更为直观的效果。

OpenAI在Sora的技术报告中表示,视频生成模型是构建物理世界通用模拟器的有效途径,Sora是一个能够理解和模拟现实世界的模型,是实现通用人工智能的重要里程碑。那么,Sora对文生视频的意义真的有那么重要吗?我们不妨从Sora的一些技术亮点中一探究竟。

根据上述技术报告,Sora是一种通用的视觉数据模型,它可以生成跨越时间、横竖比和分辨率的视频和图像,生成最多达一分钟的高清视频。OpenAI借助了与GPT模型类似的Transformer架构,该架构在视频和图像潜在代码的时空补丁上运行。

Sora生成的视频在尺寸上具有很高的灵活性。以往,图像和视频的生成通常需要将采样视频进行大小调整、裁剪至标准尺寸,而事实上,研究发现在原始视频上进行采样会有更好的生成效果。Sora可以对1920×1080的横屏视频、1080×1920的垂直视频以及介于两者之间的所有视频规格进行采样,这让Sora可以直接为不同尺寸的设备创建内容,并且Sora还允许在生成高分辨率的内容之前,以较低的分辨率帮助用户快速创建内容。

在语言理解方面,Sora也有可圈可点之处。从训练文本到视频生成需要大量带有相应文本字幕的视频,OpenAI将其图像生成模型的第三个版本DALL·E3的字幕技术应用到视频,首先训练一个具有高度描述性的字幕生成器模型,然后使用它为所有视频生成文本字幕,从而提高文本真实度以及视频的整体质量。此外,研究团队还借助GPT将简短的用户提示转换为更为详细的指令,然后发送给视频模型,这让Sora能够准确遵循用户提示生成高质量视频。

在视频编辑方面,Sora能够向前或向后扩展视频,比如在一段生成视频拓展出三个新视频,新视频的开头各不相同,但拥有相同的结尾。Sora还实现了从文本提示中编辑图像和视频的方法,比如将SDEdit技术应用于Sora,能实现零镜头转换改变视频风格的功能。用户还可以使用Sora在两个视频之间进行转场,实现完全不同主题和场景视频之间的无缝过渡。

此外,在新兴的仿真功能方面,视频模型在大规模训练时表现出许多有趣的能力。比如,3D的一致性让Sora可以生成具有动态相机效果的运动视频;模拟能力让Sora实现视频里动作的延续:画家在画布上留下的笔触会随着时间的推移而持续。

Sora发布后不久,360集团创始人周鸿祎在微博中表示:“这都是大模型的功劳,OpenAI训练这个模型应该会阅读大量视频,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI(通用人工智能)不远了,可能一两年就可以实现。”他表示,Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。这也代表未来的方向,有强劲的大模型做底子,基于对人类语言的理解、对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具。他预测,Sora至少将对机器人具身智能和自动驾驶带来巨大影响。

当然,Sora作为视频生成模拟器也表现出许多局限性。OpenAI坦言,它可能难以准确模拟复杂场景的物理特性,可能无法理解因果关系。例如,视频中的人物咬了一口饼干,但饼干可能没有咬痕。该模型还可能混淆空间细节,例如左右混淆,难以精确呈现随时间推移发生的事件等。但不管怎样,Sora展现的不仅仅是视频生成的能力,而是人工智能大模型对真实世界有了理解和模拟之后带来的新成果和新突破,人工智能作为新生产力的浪潮已经滚滚而来。


(编辑:户静凝)