英伟达人形机器人仿真开门快于人类

英伟达人形机器人仿真开门快于人类

爱力方

爱力方

2025年12月15日 11:35
本文共计2103个字,预计阅读时长8分钟。
来源/互联网 责编/爱力方

人形机器人,已能完成后空翻、表演复杂的武术动作时,一个看似简单、却无比基础的日常任务——开门——却长期以来,困扰着整个业界。

这个需要精准的感知、细腻的接触控制,以及全身动态协调的动作,已成为检验一台机器人,其自主能力的终极“试金石”。

如今,由英伟达,联合加州大学伯克利分校、卡内基梅隆大学等顶尖机构的研究团队,终于,攻克了这一难题。

他们推出的DoorMan系统,仅凭单一的RGB视觉输入,就能让人形机器人,在真实的物理世界中,灵活地应对各种类型的门。

其性能,不仅在成功率上,超越了经验丰富的人类远程操作员。在完成任务的速度上,更是快出了23.1%至31.7%。

这并非又一次简单的算法优化。这是一次,从根本上,解决了从仿真世界到现实世界(Sim-to-Real)迁移难题的、系统性的范式突破。

三大核心技术:破解“Sim-to-Real”的迁移难题

DoorMan的成功,得益于一套被精妙设计的、“教师-学生-自举”的学习框架,以及大规模的仿真随机化技术。

DoorMan 训练流程。所有阶段均在 IsaacLab 中交互式完成

1. 教师-学生蒸馏:从“全知”到“纯视觉”的知识迁移。
在仿真环境中,研究团队,首先训练了一个“教师”策略。这个“教师”,可以获取到人类无法直接观察到的“特权信息”——例如,机器人与门的精确相对位置、手部与门把手的姿态关系、手部的接触力数据等。

借助这些“全知”的信息,这个“教师”策略,能够快速地掌握开门的核心技能。

随后,一个“学生”策略,被创建出来。这个“学生”,则完全模拟真实世界的约束,仅能依靠RGB图像和自身的本体感受数据,来进行决策。

为了让“学生”,能够继承“教师”的能力,研究团队采用了一种名为DAgger的交互式蒸馏算法。这确保了,即便是在纯视觉的条件下,“学生”依然能够精准地,复现出“教师”的操作逻辑。

2. 分阶段重置探索:为长时序任务“搭梯子”。
“开门”这类长时序的任务,其训练,极易陷入一个“难以推进到后期阶段”的困境。

为解决这一问题,研究团队,设计了一种“分阶段重置探索”的策略。

他们将开门的任务,分解为六个连续的阶段(走向门、预抓取、抓取、开门、门摆动、穿过门)。当机器人成功进入下一个阶段时,系统会缓存此时的仿真快照。在后续的训练重置时,环境会以一定的概率,随机地,从这些被缓存的中间阶段开始,而不是每一次,都从零开始。

这种设计,相当于给整个训练过程,“搭上了一节节的梯子”,让策略,能够更频繁地,接触到并学习任务的后期阶段,从而极大地,提升了训练的效率。

3. GRPO微调:在“看不见”时,学会“自我调整”。
纯视觉的感知,必然会面临“部分可观测性”的问题——例如,门把手,被机器人自己的手臂所遮挡。

为了让策略,具备自我改进的能力,研究团队,在蒸馏之后,加入了一个名为GRPO的微调阶段。

在这个阶段,系统仅使用一个简单的、二元的成功信号(即,门,是否被最终成功打开),来引导“学生”策略,进行自主的探索与改进。

实验发现,经过微调后,“学生”策略,会主动地,学会去调整其身体的姿态,以确保门把手,能够始终保持在自己的相机视野之中。

——这些,是“教师”策略,从未展示过的、全新的行为。它们,完全是“学生”策略,通过自主学习,而获得的、全新的“肌肉记忆”——

实测性能:超越人类操作员

为了全面验证DoorMan的性能,研究团队,在真实世界中,进行了多维度的测试。

测试,采用了一台宇树的G1人形机器人。其自主策略,与由人类(分为“专家”与“非专家”)进行的远程遥控操作,进行了直接的对比。

测试结果显示:

  • 成功率上, DoorMan达到了83%,超过了专家操作员的80%,以及非专家的60%。

  • 效率上, 其优势更为明显。它比专家,快了23.8%;比非专家,快了31.7%。

所有开门任务的平均性能:左图为成功率(数值越高越好);右图为任务流畅度(以完成开门任务的耗时衡量,数值越低越好)。

从定性的表现来看,人类操作员,常常难以准确地判断门把手的弹簧力,以及门的铰链阻力,容易出现操作节奏混乱、身体失衡等问题。

而DoorMan,则能够精准地控制其施加的力的大小,以及身体的姿态,始终保持平稳的开门速度。

一个更宏大的图景

DoorMan的核心价值在于,它以一种极具说服力的方式,证明了:

通过大规模的、高保真的仿真随机化,以及高效的、分阶段的强化学习框架,一个纯视觉驱动的人形机器人,完全有能力,在真实的、从未见过的物理环境中,去完成复杂的、长时序的操作任务。

打通人形机器人像素到动作策略迁移的仿真到现实之门

DoorMan 训练进度:(a) 学生策略的 GRPO 自举优化;(b) 不同阶段重置缓冲区大小下的教师策略探索。

并且,其性能,可以稳定地,超越由人类进行的远程操作。

这,不仅是为“开门”这一个具体的任务,提供了一个终极的解法。

其更深远的意义在于,它为解决其它所有,类似的、需要与物理世界进行深度交互的复杂任务,提供了一个通用的、可被扩展的、强大的技术范式。

一个由仿真世界中训练出的“肌肉记忆”,来驱动现实世界中物理行动的、全新的时代,已不再是遥远的设想。

它,正以一种清晰的、可被验证的方式,走进现实。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯