当人形机器人,已能完成后空翻、表演复杂的武术动作时,一个看似简单、却无比基础的日常任务——开门——却长期以来,困扰着整个业界。
这个需要精准的感知、细腻的接触控制,以及全身动态协调的动作,已成为检验一台机器人,其自主能力的终极“试金石”。
如今,由英伟达,联合加州大学伯克利分校、卡内基梅隆大学等顶尖机构的研究团队,终于,攻克了这一难题。
他们推出的DoorMan系统,仅凭单一的RGB视觉输入,就能让人形机器人,在真实的物理世界中,灵活地应对各种类型的门。
其性能,不仅在成功率上,超越了经验丰富的人类远程操作员。在完成任务的速度上,更是快出了23.1%至31.7%。

这并非又一次简单的算法优化。这是一次,从根本上,解决了从仿真世界到现实世界(Sim-to-Real)迁移难题的、系统性的范式突破。
三大核心技术:破解“Sim-to-Real”的迁移难题
DoorMan的成功,得益于一套被精妙设计的、“教师-学生-自举”的学习框架,以及大规模的仿真随机化技术。

DoorMan 训练流程。所有阶段均在 IsaacLab 中交互式完成
1. 教师-学生蒸馏:从“全知”到“纯视觉”的知识迁移。
在仿真环境中,研究团队,首先训练了一个“教师”策略。这个“教师”,可以获取到人类无法直接观察到的“特权信息”——例如,机器人与门的精确相对位置、手部与门把手的姿态关系、手部的接触力数据等。
借助这些“全知”的信息,这个“教师”策略,能够快速地掌握开门的核心技能。
随后,一个“学生”策略,被创建出来。这个“学生”,则完全模拟真实世界的约束,仅能依靠RGB图像和自身的本体感受数据,来进行决策。

为了让“学生”,能够继承“教师”的能力,研究团队采用了一种名为DAgger的交互式蒸馏算法。这确保了,即便是在纯视觉的条件下,“学生”依然能够精准地,复现出“教师”的操作逻辑。
2. 分阶段重置探索:为长时序任务“搭梯子”。
“开门”这类长时序的任务,其训练,极易陷入一个“难以推进到后期阶段”的困境。
为解决这一问题,研究团队,设计了一种“分阶段重置探索”的策略。
他们将开门的任务,分解为六个连续的阶段(走向门、预抓取、抓取、开门、门摆动、穿过门)。当机器人成功进入下一个阶段时,系统会缓存此时的仿真快照。在后续的训练重置时,环境会以一定的概率,随机地,从这些被缓存的中间阶段开始,而不是每一次,都从零开始。

这种设计,相当于给整个训练过程,“搭上了一节节的梯子”,让策略,能够更频繁地,接触到并学习任务的后期阶段,从而极大地,提升了训练的效率。
3. GRPO微调:在“看不见”时,学会“自我调整”。
纯视觉的感知,必然会面临“部分可观测性”的问题——例如,门把手,被机器人自己的手臂所遮挡。
为了让策略,具备自我改进的能力,研究团队,在蒸馏之后,加入了一个名为GRPO的微调阶段。
在这个阶段,系统仅使用一个简单的、二元的成功信号(即,门,是否被最终成功打开),来引导“学生”策略,进行自主的探索与改进。

实验发现,经过微调后,“学生”策略,会主动地,学会去调整其身体的姿态,以确保门把手,能够始终保持在自己的相机视野之中。
——这些,是“教师”策略,从未展示过的、全新的行为。它们,完全是“学生”策略,通过自主学习,而获得的、全新的“肌肉记忆”——
实测性能:超越人类操作员
为了全面验证DoorMan的性能,研究团队,在真实世界中,进行了多维度的测试。
测试,采用了一台宇树的G1人形机器人。其自主策略,与由人类(分为“专家”与“非专家”)进行的远程遥控操作,进行了直接的对比。
测试结果显示:
-
成功率上, DoorMan达到了83%,超过了专家操作员的80%,以及非专家的60%。
-
效率上, 其优势更为明显。它比专家,快了23.8%;比非专家,快了31.7%。

所有开门任务的平均性能:左图为成功率(数值越高越好);右图为任务流畅度(以完成开门任务的耗时衡量,数值越低越好)。
从定性的表现来看,人类操作员,常常难以准确地判断门把手的弹簧力,以及门的铰链阻力,容易出现操作节奏混乱、身体失衡等问题。
而DoorMan,则能够精准地控制其施加的力的大小,以及身体的姿态,始终保持平稳的开门速度。
一个更宏大的图景
DoorMan的核心价值在于,它以一种极具说服力的方式,证明了:
通过大规模的、高保真的仿真随机化,以及高效的、分阶段的强化学习框架,一个纯视觉驱动的人形机器人,完全有能力,在真实的、从未见过的物理环境中,去完成复杂的、长时序的操作任务。

打通人形机器人像素到动作策略迁移的仿真到现实之门

DoorMan 训练进度:(a) 学生策略的 GRPO 自举优化;(b) 不同阶段重置缓冲区大小下的教师策略探索。
并且,其性能,可以稳定地,超越由人类进行的远程操作。
这,不仅是为“开门”这一个具体的任务,提供了一个终极的解法。
其更深远的意义在于,它为解决其它所有,类似的、需要与物理世界进行深度交互的复杂任务,提供了一个通用的、可被扩展的、强大的技术范式。
一个由仿真世界中训练出的“肌肉记忆”,来驱动现实世界中物理行动的、全新的时代,已不再是遥远的设想。
它,正以一种清晰的、可被验证的方式,走进现实。