从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?

AI最新资讯3个月前发布 tree
49 0 0

今日应用


今日话题


直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
 

重点标签 Sora世界模拟器视频生成直观物理学AI辩论

文章摘要


Sora是OpenAI推出的一个视频生成模型,它能够根据文本提示生成高质量的视频。尽管Sora在技术上取得了巨大进步,但它是否能够被称为“世界模拟器”仍存在争议。图灵奖得主Yann LeCun等学者认为,Sora仅通过生成逼真视频并不能证明其理解了物理世界。澳大利亚麦考瑞大学的哲学助理教授Raphaël Millière撰写了一篇长文,探讨了Sora是否为世界模拟器的问题。文章回顾了Sora的功能、工作原理,讨论了认知科学中的直观物理学文献、机器学习中的“世界模型”概念以及图像生成模型的可解释性研究。最终得出结论,Sora并没有运行传统意义上的模拟,但其在有限的意义上表现出了视觉场景的物理属性。此外,文章还预测了视频生成模型在未来AI和机器人学中的地位,以及它们与认知科学中正在进行的辩论之间的潜在相关性。

Sora的技术进展
Sora的问世为视频生成领域树立了新的标准。它生成的视频在高分辨率、纹理细节和构图方面都达到了前所未有的真实感。Sora最令人印象深刻的是其时间一致性,能够保持视频中场景元素的属性随时间推移连贯地匹配或修改。

Sora的工作原理
Sora背后的技术基础之一是DiT(扩散Transformer)论文,该论文探讨了扩散模型中架构选择的意义,并为未来的生成模型研究提供了经验基线。Sora的架构可能没有真正的突破,但通过工程手段和缩放能力,实现了样本质量的提高。

模拟假设的讨论
OpenAI团队认为Sora获得了规模化的“模拟能力”,但这一说法过于模糊。模拟物理世界实际意味着什么,以及哪些证据可以支持这一说法,是值得探讨的问题。

直观物理学与世界模型
直观物理学是指人们对物理世界的直观理解,而世界模型一词在技术术语中含义逐渐淡化。认知科学家认为,人们使用直观物理引擎在心理上模拟物理事件。而世界模型则包含感知组件,用于处理原始观察并将其压缩为紧凑编码。

结论与预测
Sora可能在某种意义上是一个有限的世界模型,但它的视频生成过程并不以直观物理的前向模拟为条件。未来机器人系统可能会使用视觉-语言模型、视频生成模型和可逆动力学模型等组件。无论人们对Sora的看法如何,探索视频生成背后的技术都是令人兴奋的。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...