openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]

时间：2024-2-20 9:31:29 编辑：css 发表评论

图注：一个女人在秋天的特写肖像，每一个细节都被捕捉得淋漓尽致，浅景深的应用使得主体脱颖而出

openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]图片8

图注：充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物

新的模拟能力

在大规模训练过程中，我们发现视频模型展现出了许多令人兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是，这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差，而是纯粹通过模型的尺度扩展而自然涌现的。

3D一致性：在3D一致性方面，Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转，人物和场景元素在三维空间中始终保持一致的运动规律。

较长视频的连贯性和对象持久性：视频生成领域面对的一个重要挑战就是，在生成的较长视频中保持时空连贯性和一致性。Sora，虽然不总是，但经常能够有效地为短期和长期物体间的依赖关系建模。例如，在生成的视频中，人物、动物和物体即使在被遮挡或离开画面后，仍能被准确地保存和呈现。同样地，Sora能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观的一致性。

与世界互动：Sora有时还能以简单的方式模拟影响世界状态的行为。例如，画家可以在画布上留下新的笔触。随着时间的推移，一个人吃汉堡时也能在上面留下咬痕。

模拟数字世界：Sora还能够模拟人工过程，比如视频游戏。它可以在高保真度渲染世界及其动态的同时，用基本策略控制《我的世界》中的玩家。这些功能都无需额外的训练数据或调整模型参数，只需向Sora提示“我的世界”即可实现。

这些新能力表明，视频模型的持续扩展为开发高性能的物理和数字世界模拟器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和人等实体，我们可以更深入地理解现实世界的运行规律，并开发出更加逼真、自然的视频生成技术。

局限性与展望

尽管Sora在模拟能力方面已经取得了显著的进展，但它目前仍然存在许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，如玻璃破碎等。此外，在某些交互场景中，比如吃东西时，Sora并不能总是产生正确的对象状态变化。我们在发布页面中列举了模型的其他常见故障模式，包括在长时间样本中发展的不一致性或某些对象不受控的出现等。

然而，我们相信随着技术的不断进步和创新，Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来，我们期待看到更加先进的视频生成技术，能够更准确地模拟现实世界中的各种现象和行为，并为我们带来更加逼真、自然的视觉体验。

圈内人如何看Sora?

最后再来看看各位技术大牛和内容行业从业者如何评价Sora?

马斯克评OpenAI视频模型：人类认赌服输，但AI增强的人类将创造出最好作品

OpenAI周四发布了首个视频生成模型Sora。马斯克的前女友格莱姆斯发布了一连串帖子，讨论这项新技术对电影以及更广泛的艺术创作的影响。

马斯克在其中一条帖子下回应称：“AI增强的人类将在未来几年里创造出最好的作品。”

值得注意的是，马斯克和格莱姆斯在过去大约半年时间里一直在就他们三个子女的抚养权问题对薄公堂。两人之间在X平台上这次罕见的互动引发了人们对他们目前关系状态的猜测。

稍早，一位X用户分享了Sora生成的一名女子在东京街头漫步的视频，并评论称：“OpenAI今天宣布了Sora，它使用混合扩散和变压器模型架构生成长达1分钟的视频。他们似乎又领先了其他所有人1-2年。”另一位X用户评论称：“gg皮克斯。”

马斯克回应称：“gg人类。”(注：gg是网络游戏用语“good games”的缩写，主要用于游戏结束后，输赢双方都可以用，但现在多由失败方发出，表示认赌服输、心服口服的意思。)在马斯克帖子的评论区里，还有用户附和道：“gg好莱坞”。

Jim Fan感叹：Sora是一个数据驱动的物理引擎

英伟达人工智能研究院Jim Fan表示“如果你还是把Sora当做DALLE那样的生成式玩具，还是好好想想吧，这是一个数据驱动的物理引擎。”Jim Fan大神的言下之意是，我们不能忽略Sora背后，“世界模型”更进一步，AI已经可以读懂物理规律。

YouTube大V ：动画师和3D艺术家的工作可能有危险了

YouTube大V Paddy Galloway感慨：“内容创作永远改变了。这不是夸张。我在YouTube世界已经15年了，OpenAI刚刚展示的东西让我说不出话来…”他认为，Sora将带来以下这些改变：

● 动画师和3D艺术家的工作可能有危险了库存素材网站将变得无关紧要

● 任何人都可以立即拥有出色的B-roll(辅助镜头)

● 制作精美视频的门槛降至零

● 在一个每个人都能制作出美丽视频的世界里，内容背后的“想法”和故事变得更加重要

● Sora将真正颠覆教育、视频论文和解说视频的细分市场

AI创业公司创始人：五年之后，你将能够生成完全沉浸式的世界，并实时体验它们

Takeoff AI是专注于AI Tools的创业公司，它的创始人认为这一波OpenAI新技术的最大受益者可能是虚拟现实。“在两周内，我们连续有了苹果的Vision Pro和OpenAI的Sora文本到视频AI模型。五年之后，你将能够生成完全沉浸式的世界，并实时体验它们。Holodeck(应该是指今年火爆的掌机Steamdeck的虚拟现实版本)很快就要来了。”

除了这些技术上的猜测和对产业影响的正面预测外，也有老反对派指出Sora的潜在问题不那么容易纠正。

Gary Marcus：Sora奇怪的物理故障可能不是数据中出现的

纽约大学教授Gary Marcus以其对AI领域的深刻见解和对现有技术的批判性思考而闻名，他的观点和研究对AI社区产生了重要影响。他表示“Sora奇怪的物理故障(例如动物和人在人群中自发出现和消失)令人着迷：这些错误可能不是数据中出现的。这种小故障在某些方面类似于LLM“幻觉”，即从有损压缩中(大致)解压缩产生的伪影，而不是来自这个世界的东西。”

而且这种错误在他看来是一种“与现实世界物理学的系统性偏差，可能很难纠正。”

不过此刻最悲伤的应该是Google，今天本来拿来翻盘用的的Gemini1.5发布风头完全被Sora压过。作为AI界的汪峰，它对此没有评论。