引言
官方连接:https://openai.com/research/video-generation-models-as-world-simulators
这份报告主要讨论了使用视频数据对生成模型进行大规模训练的过程,以及这些模型如何有望成为模拟现实世界的通用工具。
特别强调了Sora模型,它能够根据文本提示生成长达一分钟的高保真视频,展现了扩展视频生成模型作为构建物理世界通用模拟器的潜力。
Sora的核心能力可以分为这三大块:创作视频,视频融合,图片制作。因此,把它仅仅定义为视频制作工具是不全面的,这样会遗漏其他重要功能。
而创作视频是Sora的核心功能,所以我们先从它开始分析。
它拥有几个强大的特点,使其能够在竞争激烈的AI视频工具中脱颖而出。特点如下:
(一)长达1分钟的视频
(二)可变的持续时间、分辨率、宽高比
(三)更优秀的语义理解
(四)3D一致性
(五)远程相干性和物体持久性
(六)图生成视频
(一)长达1分钟的视频
大多数工具通常只能生成几秒到十几秒的视频。而Sora可以直接生成长达一分钟的视频。
而且这一分钟的视频并非单一场景,而是由多个镜头组成。
(二)可变的持续时间、分辨率、宽高比
OpenAI没有采用传统的方法调整视频,而是用视频的原始大小进行训练,这样做的好处有两点。
1.可生成不同尺寸的视频
通过在原生宽高比上训练,模型能够学习处理和生成不同尺寸和比例的视频。
这意味着模型不再仅限于生成特定格式(例如,分辨率为 256×256 的 4 秒视频)的内容。
也就是说,Sora能够生成不同尺寸的视频,包括宽屏的1920x1080p视频、竖屏的1080×1920视频,以及这两者之间的所有尺寸。
Sora可以直接按照不同设备的原生宽高比创建内容。
因此,无论是手机、电脑还是电视,Sora都能为它们制作出完美匹配比例的视频。
2.改进构图和框架
直接在视频的原生宽高比上进行训练,即不改变视频的原始长宽比例,可以改善生成视频的构图和布局。
视频生成模型的训练实践中,常见的一种方法是将所有训练视频裁剪为正方形。
这样做的目的是为了统一训练数据的格式,简化模型的训练过程。
然而,这种裁剪方法可能会损害视频的视觉效果,因为它强制改变了视频的原始宽高比。
有时甚至会导致视频中的主要内容被部分切掉,使得重要的视觉信息丢失。
Sora模型的优势在于,与那些在正方形裁剪视频上训练的模型相比,Sora模型直接在视频的原生宽高比上进行训练,避免了上述问题。
这意味着Sora生成的视频在视觉上更加完整,能够更好地保持视频内容的完整性和视觉吸引力。
(三)更优秀的语义理解
OpenAl通过应用DALL·E3中引入的重新字幕技术,为视频训练数据生成高度描述性的字幕,从而提高了文本的准确性和视频的整体质量。
此外,通过使用GPT技术将用户的简短提示扩展成更详细的字幕,Sora能够生成高质量的视频,这些视频精确地符合用户的指示。
(四)3D一致性
此功能体现了Sora对动态相机运动的高级模拟能力,反映了它能够真实地再现相机在现实世界中的移动和旋转效果。
随着相机的变换视角,Sora确保人物和场景元素在三维空间内的移动保持连贯和致,从而创造出极具真实感的视频体验。
(五)远程相干性和物体持久性
对视频生成系统来说,保持长视频采样中的时间一致性一直是一个显著挑战。
Sora展示了其在处理视频中的短期和长期元素关系方面的强大能力。
尽管不总是完美无缺,但通常能有效地维持人物、动物和物体的连续性,即使它们在画面中被遮挡或暂时消失。
例如,它能在一个视频样本中为同一角色生成多个镜头,并确保该角色在视频全程中外观一致。
(六)图生成视频
Sora不仅可以将文本转换为视频,还可以接受其他类型的输入,例如现有的图像。
下面展示了一个例子,这个视频是基于DALL·E 2和DALL·E 3生成的图片制作的。