找手机游戏就上68游戏网 专业手游媒体门户网站!

最新游戏 | 最新软件 | 游戏更新 | 软件更新 | 推荐游戏 | 推荐软件 | 合集排行 |

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]

时间:2024-2-20 9:31:29    编辑:css 发表评论
采样更灵活

Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片4

图注:Sora可以为各种设备生成与其原始纵横比完美匹配的内容

改进构图与框架

我们的实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片5

图注:将所有训练视频裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧

语言理解深化

为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,我们借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。首先,我们训练了一个高度描述性的转译员模型,然后使用它为我们训练集中的所有视频生成文本转译。通过这种方式,我们发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。

与此同时,与DALL·E3类似,我们还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。

图片与视频提示

在上述所有结果和我们的演示中,你可能已经注意到了文本转视频的示例。但Sora的功能远不止于此,它还能接受其他类型的输入提示,如预先存在的图像或视频。这种多样化的提示方式使Sora能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。

将DALL·E图片变成动画

值得一提的是,Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALL·E 2和DALL·E 3的图像生成的。这些示例不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片6


一幅逼真的云朵图像生成视频,上面写着“SORA”;在一个华丽的历史大厅里,一股巨大的浪潮达到顶峰,并开始崩散,两个冲浪者抓住时机,巧妙地在海浪表面飞驰

扩展生成视频

Sora不仅具备生成视频的能力,更能在时间维度上实现向前或向后的无限扩展。以下三个视频便是从同一生成视频片段出发,逐步向后扩展的示例。尽管它们的起始部分各异,但结局却出奇地一致。

视频到视频编辑

随着扩散模型的发展,我们已经开发出多种方法来编辑基于文本提示的图像和视频。在此,我们将其中一种名为SDEdit 32的技术应用于Sora。这项技术赋予了Sora转换零拍摄输入视频风格和环境的能力,为视频编辑领域带来了革命性的变革。

视频的无缝连接

更令人惊叹的是,Sora还能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。

图片生成能力

Sora的出色能力不止于数据处理和分析,它现在还能生成图像!这一创新功能的实现得益于一种独特的算法,该算法在一个精确的时间范围内,巧妙地在空间网格中排列高斯噪声补丁。

值得一提的是,Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048 × 2048分辨率。

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片7

相关软件
最新软件

玩家评论

加载更多

(愿您的每句评论,都能给大家的带来欢乐,带来共鸣,带来价值。) 回复 [ ] 楼取消回复