openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]

时间：2024-2-20 9:31:29 编辑：css 发表评论

采样更灵活

Sora具备出色的采样能力，无论是宽屏1920x1080p视频、垂直1080x1920视频，还是介于两者之间的任何视频尺寸，它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是，即使在生成全分辨率内容之前，Sora也能以较小的尺寸迅速创建内容原型。而所有这一切，都得益于使用相同的模型。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片4

图注：Sora可以为各种设备生成与其原始纵横比完美匹配的内容

改进构图与框架

我们的实验结果显示，在视频的原始纵横比上进行训练，能够显著提升构图和框架的质量。为了验证这一点，我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现，在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧，充分展现了其在视频生成领域的卓越性能。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片5

图注：将所有训练视频裁剪为方形的模型相比(左)，Sora能呈现出更加完美的帧

语言理解深化

为了训练文本转视频生成系统，需要大量带有相应文本字幕的视频。为此，我们借鉴了DALL·E3中的re-captioning技术，并应用于视频领域。首先，我们训练了一个高度描述性的转译员模型，然后使用它为我们训练集中的所有视频生成文本转译。通过这种方式，我们发现对高度描述性的视频转译进行训练，可以显著提高文本保真度和视频的整体质量。

与此同时，与DALL·E3类似，我们还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。

图片与视频提示

在上述所有结果和我们的演示中，你可能已经注意到了文本转视频的示例。但Sora的功能远不止于此，它还能接受其他类型的输入提示，如预先存在的图像或视频。这种多样化的提示方式使Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。

将DALL·E图片变成动画

值得一提的是，Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALL·E 2和DALL·E 3的图像生成的。这些示例不仅证明了Sora的强大功能，还展示了它在图像和视频编辑领域的无限潜力。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片6