英伟达人形机器人仿真开门快于人类

英伟达人形机器人仿真开门快于人类

爱力方

爱力方

2025年12月15日 11:35

本文共计2103个字，预计阅读时长8分钟。

来源/互联网责编/爱力方

当人形机器人，已能完成后空翻、表演复杂的武术动作时，一个看似简单、却无比基础的日常任务——开门——却长期以来，困扰着整个业界。

这个需要精准的感知、细腻的接触控制，以及全身动态协调的动作，已成为检验一台机器人，其自主能力的终极“试金石”。

如今，由英伟达，联合加州大学伯克利分校、卡内基梅隆大学等顶尖机构的研究团队，终于，攻克了这一难题。

他们推出的DoorMan系统，仅凭单一的RGB视觉输入，就能让人形机器人，在真实的物理世界中，灵活地应对各种类型的门。

其性能，不仅在成功率上，超越了经验丰富的人类远程操作员。在完成任务的速度上，更是快出了23.1%至31.7%。

这并非又一次简单的算法优化。这是一次，从根本上，解决了从仿真世界到现实世界（Sim-to-Real）迁移难题的、系统性的范式突破。

三大核心技术：破解“Sim-to-Real”的迁移难题

DoorMan的成功，得益于一套被精妙设计的、“教师-学生-自举”的学习框架，以及大规模的仿真随机化技术。

DoorMan 训练流程。所有阶段均在 IsaacLab 中交互式完成

1. 教师-学生蒸馏：从“全知”到“纯视觉”的知识迁移。
在仿真环境中，研究团队，首先训练了一个“教师”策略。这个“教师”，可以获取到人类无法直接观察到的“特权信息”——例如，机器人与门的精确相对位置、手部与门把手的姿态关系、手部的接触力数据等。

借助这些“全知”的信息，这个“教师”策略，能够快速地掌握开门的核心技能。

随后，一个“学生”策略，被创建出来。这个“学生”，则完全模拟真实世界的约束，仅能依靠RGB图像和自身的本体感受数据，来进行决策。

为了让“学生”，能够继承“教师”的能力，研究团队采用了一种名为DAgger的交互式蒸馏算法。这确保了，即便是在纯视觉的条件下，“学生”依然能够精准地，复现出“教师”的操作逻辑。

2. 分阶段重置探索：为长时序任务“搭梯子”。
“开门”这类长时序的任务，其训练，极易陷入一个“难以推进到后期阶段”的困境。

为解决这一问题，研究团队，设计了一种“分阶段重置探索”的策略。

他们将开门的任务，分解为六个连续的阶段（走向门、预抓取、抓取、开门、门摆动、穿过门）。当机器人成功进入下一个阶段时，系统会缓存此时的仿真快照。在后续的训练重置时，环境会以一定的概率，随机地，从这些被缓存的中间阶段开始，而不是每一次，都从零开始。

这种设计，相当于给整个训练过程，“搭上了一节节的梯子”，让策略，能够更频繁地，接触到并学习任务的后期阶段，从而极大地，提升了训练的效率。

3. GRPO微调：在“看不见”时，学会“自我调整”。
纯视觉的感知，必然会面临“部分可观测性”的问题——例如，门把手，被机器人自己的手臂所遮挡。

为了让策略，具备自我改进的能力，研究团队，在蒸馏之后，加入了一个名为GRPO的微调阶段。

在这个阶段，系统仅使用一个简单的、二元的成功信号（即，门，是否被最终成功打开），来引导“学生”策略，进行自主的探索与改进。

实验发现，经过微调后，“学生”策略，会主动地，学会去调整其身体的姿态，以确保门把手，能够始终保持在自己的相机视野之中。

——这些，是“教师”策略，从未展示过的、全新的行为。它们，完全是“学生”策略，通过自主学习，而获得的、全新的“肌肉记忆”——

实测性能：超越人类操作员

为了全面验证DoorMan的性能，研究团队，在真实世界中，进行了多维度的测试。

测试，采用了一台宇树的G1人形机器人。其自主策略，与由人类（分为“专家”与“非专家”）进行的远程遥控操作，进行了直接的对比。

测试结果显示：

成功率上， DoorMan达到了83%，超过了专家操作员的80%，以及非专家的60%。
效率上， 其优势更为明显。它比专家，快了23.8%；比非专家，快了31.7%。

所有开门任务的平均性能：左图为成功率（数值越高越好）；右图为任务流畅度（以完成开门任务的耗时衡量，数值越低越好）。

从定性的表现来看，人类操作员，常常难以准确地判断门把手的弹簧力，以及门的铰链阻力，容易出现操作节奏混乱、身体失衡等问题。

而DoorMan，则能够精准地控制其施加的力的大小，以及身体的姿态，始终保持平稳的开门速度。

一个更宏大的图景

DoorMan的核心价值在于，它以一种极具说服力的方式，证明了：

通过大规模的、高保真的仿真随机化，以及高效的、分阶段的强化学习框架，一个纯视觉驱动的人形机器人，完全有能力，在真实的、从未见过的物理环境中，去完成复杂的、长时序的操作任务。

打通人形机器人像素到动作策略迁移的仿真到现实之门

DoorMan 训练进度：(a) 学生策略的 GRPO 自举优化；(b) 不同阶段重置缓冲区大小下的教师策略探索。

并且，其性能，可以稳定地，超越由人类进行的远程操作。

这，不仅是为“开门”这一个具体的任务，提供了一个终极的解法。

其更深远的意义在于，它为解决其它所有，类似的、需要与物理世界进行深度交互的复杂任务，提供了一个通用的、可被扩展的、强大的技术范式。

一个由仿真世界中训练出的“肌肉记忆”，来驱动现实世界中物理行动的、全新的时代，已不再是遥远的设想。

它，正以一种清晰的、可被验证的方式，走进现实。

声明：本文来自互联网，版权归作者所有。文章内容仅代表作者独立观点，不代表A³·爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

0

0

TAGS: 人形机器人英伟达仿真训练具身智能机器人控制

相关图文

2025iCAN未来机器人创业挑战赛总决赛在昌平落幕

2025iCAN未来机器人创业挑战赛总决赛在昌平落幕

2025-12-15

2025科技与资本报告｜机器人爆单

2025科技与资本报告｜机器人爆单

2025-12-14

理性看待机器人产业速度与泡沫

理性看待机器人产业速度与泡沫

2025-12-14

宇树科技启动IPO 机器人行业迎资本热潮

宇树科技启动IPO 机器人行业迎资本热潮

2025-12-14

SK海力士携手英伟达共研下一代AI存储技术

SK海力士携手英伟达共研下一代AI存储技术

2025-12-14

上海2025年GDP目标：机器人技能全面升级

上海2025年GDP目标：机器人技能全面升级

2025-12-14

热门资讯

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

2025-11-18

·

56 浏览
告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

2025-11-21

·

55 浏览
从跑酷到叠衣：机器人行业为何集体放弃“炫技”？

2025-11-25

·

49 浏览
2.2亿用户，115亿美元血亏：OpenAI的“万亿帝国”，是梦想还是泡沫？

2025-11-26

·

47 浏览
从六轴到七轴，不止多一轴：松灵NERO发布，开启机器人精细操作新篇章

2025-12-01

·

36 浏览
破解机器人“触觉智能”终极难题！浙大“活结”技术登《Nature》：一个绳结解锁精准力控

2025-11-29

·

33 浏览

快讯

理想汽车遇困机器人业务成救命稻草

2026-03-18

·

0 浏览

蓝芯算力获数亿融资创始人为字节前芯片负责人

2026-03-18

·

0 浏览

360发布反AI投毒监测工具促GEO行业规范发展

2026-03-18

·

0 浏览

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

2026-03-18

·

0 浏览

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

2026-03-18

·

0 浏览

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

2026-03-18

·

0 浏览

国内SaaS行业面临AI挑战如何应对市场变革

2026-03-18

·

0 浏览

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

2026-03-18

·

0 浏览

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

2026-03-18

·

0 浏览

多路资金博弈存储芯片股游资联手量化抢筹金开新能

2026-03-18

·

0 浏览

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读

机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台

下一篇

已是最新内容。

关注爱力方，掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/

浙ICP备2025176963号-1

标签云 RSS订阅滚动资讯资讯排行