当训练数据成为“皇帝的新衣”:AI生成的视频,会让机器人永远学不会走路吗?

当训练数据成为“皇帝的新衣”:AI生成的视频,会让机器人永远学不会走路吗?

爱力方

爱力方

2025年11月21日 14:47
本文共计2293个字,预计阅读时长8分钟。
来源/互联网 责编/爱力方

具身智能的漫漫征途上,一个长期以来,被视为“圣杯”级的、却又看似无解的核心难题,正被Google DeepMind,以一种近乎于“盗梦空间”式的、极具想象力的方式,悍然攻破。

这个难题是:如何,让机器人,能够高效地,学习并掌握无穷无尽的、新的物理操作技能,同时,又彻底地,摆脱对昂贵的、耗时的、大规模的、真实机器人演示数据的依赖?

近日,由Google DeepMind联合南加州大学、斯坦福大学等顶尖机构,共同提出的PhysWorld框架,正试图,为这个问题,给出一个颠覆性的答案。

其核心,是让机器人,仅凭一张静态的场景图片一句简单的文字指令,就能通过“观看”一段由AI自己生成的、完全虚拟的任务演示视频,来直接地,学会如何在真实的物理世界中,零样本(Zero-shot)地,完成这项全新的操作。

这场革命的起点,是近年来,发展迅猛的视频生成模型(如Google的Veo 3)。

86d7b5874f0addf2d53cfaa7c7ba980c.png

这些模型,已经能够根据图像和文字指令,合成出高度逼真的、展示某个任务(例如,“将平底锅里的番茄,倒进一个白色的盘子里”)完成全过程的演示视频。

这些由AI生成的、无穷无尽的虚拟视频,本应是机器人学习的、最宝贵的“免费教材”。

但它们,却存在一个致命的、结构性的缺陷

视频生成模型,只关心“视觉上的合理性”,而完全地,忽略了“物理世界的基本规律”。

直接地,将这些生成视频中,像素级别的运动轨迹,转化为机器人的动作指令,其结果,往往是“看起来很美,做起来离谱”——例如,机器人,可能会以一个违反力学平衡的姿态,去尝试抓取一个物体,或者,以一种完全失控的力度,去执行“倾倒”这个动作。

DeepMind的团队指出:连接“虚拟的生成视频”与“真实的机器人动作”之间的那个核心的、巨大的鸿沟,正是“物理的可行性”。

而PhysWorld框架的本质,就是为那段虚拟的、由AI生成的演示视频,去重建一个与之对应的、可被交互的、物理上完全一致的“数字孪生舞台”。

6e49e72f7c3f06504e67180cdf42e48b.png

然后,让机器人,先在这个“模拟的训练场”中,进行安全的、高效的学习。最后,再将已经学到的技能,无缝地,迁移到真实的物理世界中去。

这个精妙的、分为三步的流程,正是其核心的创新所在:

  1. 第一步:生成“任务专属”的演示视频。

    • 输入一张真实场景的RGB-D图像(同时包含彩色和深度信息)和一句文字指令(如,“把桌上的那本书,放回书架上”),系统,会调用视频生成模型(主要是Veo 3),来合成一段,严格匹配输入场景布局的、展示该任务完成过程的、全新的视频。

  2. 第二步(核心创新):从2D视频中,重建一个3D的“物理世界”。

    • 这是整个框架,最令人惊叹的部分。它通过一系列复杂的技术——包括4D时空重建、纹理网格生成、以及基于视觉语言模型(VLM)的物理属性赋值(例如,为桌子,赋予一个“摩擦系数”,为书本,赋予一个“质量”)——成功地,将一段2D的、单目-的生成视频,“逆向工程”为了一个完整的、符合真实物理规律的、可被用于物理模拟的3D场景。

  3. 第三步:在“模拟”中学习,在“现实”中执行。

    • 有了这个“数字孪生舞台”,机器人,便可以在其中,进行高效的、以“物体为中心”的残差强化学习。它,不再去僵硬地,模仿视频中,可能存在的、虚假的“人手”的姿态,而是转而,聚焦于那个更本质、也更稳定的目标——精准地,复现视频中,“物体”本身的运动轨迹。

6b58f6918d371cc7ccb07c6b03fe6d1e.png

在10个真实的、包含了擦拭、倾倒、放置、清扫等多样化场景的机器人操作任务上的严格测试,验证了PhysWorld框架的卓越性能。

其核心的结果是:

  • 平均任务成功率,达到了82%。

  • 这个数字,远超了所有其他的、同样是“零样本”的、基于视频学习的传统方法(例如,直接跟踪物体姿态的RIGVid,其成功率仅为67%)。

  • 而在“把书放进书架”这个特定的任务中,其成功率,更是高达90%,而传统的、基于姿态模仿的方法,其成功率,仅为30%

42a017793ba153da5eeb5ce5c06bbcfd.png

PhysWorld在真实世界操作任务中的定量评估

4d9ba6b4f6c85bb146f6bdedc306d461.png

PhysWorld在真实世界操作任务中的定性评估

准确率大幅领先

8f8f60ce4347dc192113e884af1a453e.png

失效模式分析

通过对失败案例的分析,研究人员发现,在引入了“物理世界建模”这个中间环节之后,机器人在真实世界中的“抓取失败率”,从18%,骤降至了3%

这,正是物理反馈的巨大价值:机器人在模拟的环境中,得以“提前地”,感知到那些可能会导致抓取不稳、轨迹偏差的“坏动作”,并及时地,进行修正,从而,避免了在真实世界中的、代价高昂的操作失误。

爱力方的分析认为,PhysWorld框架的发布,其意义,已远超一次单纯的技术突破。

它深刻地,为具身智能领域,开辟了一条全新的“无需任何真实机器人数据”的、极具想象力的学习路径。

它通过将“视频生成模型”的、无穷无尽的“创造力”,与“物理模拟引擎”的、严谨可靠的“约束力”,进行完美的结合,成功地为机器人打造出了一个可以无限地、低成本地,进行自我学习和进化的“虚拟健身房”。

未来,随着视频生成模型和物理模拟技术的,进一步的提升,我们或许真的将能看到那样一个终极的场景:

我们,只需用语言向机器人下达一个指令。

而它,便能自主地,在自己的“脑中”,“想象”出完成这个任务的、最佳的演示视频;然后,为这个视频,搭建一个临时的、虚拟的“排练场”;在其中,快速地,学会所有必要的操作技能;并最终,在真实的物理世界中,完美地,将其执行出来。

一个真正属于“所思即所得”的、自主机器人学习的新纪元,其大门,正被Google DeepMind,悍然推开。

论文链接:https://arxiv.org/abs/2511.07416

项目地址:https://pointscoder.github.io/PhysWorld_Web/

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯