1段演示=千次练习?李飞飞团队提出MOMAGEN框架破解机器人做家务难题!

1段演示=千次练习?李飞飞团队提出MOMAGEN框架破解机器人做家务难题!

2025年11月10日 16:16
本文共计3404个字,预计阅读时长12分钟。
来源/具身智能大讲堂 责编/爱力方

作者:李鑫   出品:具身智能大讲堂

当你看着家用机器人笨拙地撞倒水杯、找不到清洁工具时,或许从未想过,制约它们变聪明的核心难题并非算法,而是数据。让双臂移动机器人学会整理餐桌、清洁平底锅这类复杂家务,需要海量人类演示数据,但每段演示都要同时控制移动底座和两个高自由度机械臂,成本之高让研究者望而却步。

c9e9e1bdbe4c70f56d46344216cd557d.png

近日,斯坦福李飞飞团队与德州大学奥斯汀分校共同提出MOMAGEN框架,仅需1段人类演示,就能通过约束优化生成大规模多样化训练数据,让机器人低成本掌握复杂家务技能。

1►为什么教机器人做家务这么难?

模仿学习是机器人掌握技能的主流路径,本质是让机器人"看会"人类的操作并复现。但这套逻辑在双臂移动机器人身上几乎失效,核心卡在了数据采集的困境上。

首先是操作复杂度与成本的矛盾。静态桌面机器人只需控制双臂,而双臂移动机器人需要同步协调移动底座、躯干姿态、两个机械臂共十几个自由度。人类操作员往往需要通过专业设备进行精准控制,单段1分钟的演示可能要反复调试数小时,大规模数据采集堪称"烧钱无底洞"。

8f0a9e84132e62e28a516526bd67e3da.png

MimicGen方案应用于固定位置的机械臂 移动操作适配不理想

更关键的是现有数据生成方案的局限性。此前大火的MimicGen、SkillMimicGen等X-Gen系列框架,虽能通过少量演示生成数据,但仅适用于固定位置的双臂操作。一旦机器人需要移动,两个致命问题立刻显现:底座位置随机化后,目标物体可能超出机械臂工作范围导致"够不着";移动过程中相机视角变化,会让餐具、抹布等任务核心物体脱离视野,导致后续训练的视觉模型"看不准"。

最后是真实场景的多样性挑战。家务场景从来不是标准化的:杯子可能放在餐桌任意角落,灶台上可能堆满厨具,地面可能有地毯影响移动。这要求训练数据必须覆盖各种场景变量,而人工采集根本无法满足这种多样性需求。

2►约束优化:MOMAGEN的"软硬兼施"策略

MOMAGEN的核心洞察在于:与其让人类提供千变万化的演示,不如用科学规则让机器自己"创造"有效数据。团队将数据生成建模为约束优化问题,通过"硬约束保有效、软约束提质量"的设计,在多样性与有效性之间找到了完美平衡。

6d677452556c2deb4f58760ac5d5c466.png

MOMAGEN 仅需一段人类采集的演示样本,就能生成大量演示数据,其核心是将数据生成建模为一个约束优化问题。

image.png

硬约束是数据有效的底线,就像考试中的必答题,做错就直接零分。MOMAGEN设置了两道不可逾越的"生死线"。

第一道是可达性约束。这解决了机器人"够不着"的问题。框架会先分析目标物体的位置和机械臂的工作空间,然后自适应调整移动底座的坐标和姿态,确保无论物体放在哪里,机器人手臂都能精准触及。比如在整理餐桌任务中,当杯子被随机放在台面边缘时,MOMAGEN会自动将底座向对应方向平移,避免原始演示中底座位置固定导致的操作失效。

第二道是操作阶段可见性约束。这保证了机器人"看得见"关键物体。在机械臂执行抓取、擦拭等核心操作时,框架会实时监测相机画面,若目标物体被遮挡,会立刻调整躯干高度或相机角度,确保物体始终处于视野中心。实验显示,这一约束能让任务相关物体的可见率稳定在75%以上,部分任务甚至达到100%。

如果说硬约束是"合格线",软约束就是"加分项",让生成的数据更贴近人类实际使用场景。

导航阶段可见性约束专门优化移动过程:机器人在走向目标物体时,相机会尽量对准目标方向,既避免走偏,也为后续操作提前锁定目标。这就像人去拿东西时会一直看着目标,而不是漫无目的地走动。

收缩约束则关注操作后的安全性:完成任务后,机器人会自动将双臂收回身体两侧、降低躯干高度,形成紧凑构型。这种设计能大幅减少后续导航时与家具碰撞的风险,让机器人在狭窄的厨房、客厅环境中更灵活。

四步生成流水线:从单段演示到海量数据

有了约束规则,MOMAGEN将数据生成变成了标准化流程,只需输入一段人类演示,就能自动批量生产有效数据:

41775af0bf519103231f5219d00a5c1f.png

MOMAGEN工作流程一览

1.演示标注:先将原始演示按时间线拆分为"移动-抓取-操作-收回"等子任务,标注出目标物体、握持工具、接触时机等关键节点,相当于给机器画出"操作说明书"。

2.场景随机化:随机调整目标物体的位置、姿态,甚至在桌面或地面添加障碍物,构建从简单到复杂的多种初始场景,比如让杯子倾斜放置、在平底锅旁摆放铲子等。

3.约束求解:针对每个子任务,算法会快速采样满足可达性和可见性约束的底座与相机姿态,再通过运动规划生成平滑的导航轨迹,确保机器人能安全到达操作位置。

4.操作与收缩:到达指定位置后,基于原始演示的机械臂动作,结合当前场景生成操作轨迹,完成任务后执行收缩动作,回归安全状态。

35a2e8d0d1e12ec48baa1f697e843b61.png

任务可视化,团队设计的多步骤任务包含长距离导航、顺序化且协同的双臂操作,涉及拾取 - 放置动作与接触密集型运动。

整个流程无需人工干预,一台GPU加速的服务器就能持续生成数据,彻底摆脱了对人类操作员的依赖。

3►实验验证:从虚拟数据到真实机器人

为检验MOMAGEN的效果,团队在拾取杯子、整理餐桌、摆放餐具、清洁平底锅4个典型家务任务上,与SkillMimicGen、DexMimicGen等主流基线方法展开全面对比,结果呈现压倒性优势。

b8a83b80b0593a9d11d201d226dad444.png

整理餐桌任务的生成数据多样性分析(50 条轨迹,经子采样处理)

数据质量:复杂场景下的"幸存者"

在最严苛的D2随机化场景中(物体任意摆放+多障碍物),所有基线方法都因无法满足可达性或可见性约束,完全生成不出有效数据;而MOMAGEN仍能保持一定成功率,生成的演示覆盖了整个台面的物体位置,底座和机械臂轨迹的多样性远超基线。

即使在基础的D0场景中,MOMAGEN的表现也更优:平均生成成功率达63%,其中拾取杯子任务成功率86%;而清洁平底锅这种涉及接触力控制的复杂任务,成功率也能达到51%。

政策性能:单演示训出的"家务能手"

用生成数据训练机器人政策后,差距进一步拉大。仅用1000段MOMAGEN生成的数据,WB-VIMA和π₀两种主流模仿学习算法在所有任务上的表现都远超基线数据训练的模型。

7dce507b86967cf45816bc0a65c28521.png

(a)和(b)展示了 MOMAGEN 与其他数据生成方法在 WB-VIMA 模型性能上的对比,(c)展示了采用 MOMAGEN 数据训练的 WB-VIMA 与 π₀模型的性能,(d)展示了可见性约束消融实验的结果。

在中等难度的D1场景中(物体位置随机+少量障碍物),只有MOMAGEN训练的政策能实现25%的成功率,基线方法则完全无法完成任务。更关键的是,约束设计的价值凸显:移除硬约束后,政策成功率最高下降75%;移除软约束后,碰撞风险增加3倍以上。

4►真实部署:少量微调实现"虚实迁移"

最具说服力的是真实世界测试。研究人员先用1000段MOMAGEN生成的合成数据预训练模型,再用40段真实世界演示进行微调,结果令人惊喜:

fae761d3d235b960f84512cc141f3db5.png

•在拾取杯子任务中,π₀政策的真实成功率达到60%,而直接用40段真实数据训练的基线模型成功率为0;

image.png

•WB-VIMA政策虽整体成功率10%,但能稳定表现出"精准走向杯子-调整姿态-尝试抓取"的连贯行为,而基线模型只会无目的地移动底座;

image.png

•跨机器人迁移测试中,基于Galexea R1机器人生成的数据,无需修改就能直接用于训练TIAGo机器人,证明了框架的通用性。

image.png

实验结果表明,MOMAGEN生成的数据不仅在虚拟环境中有效,更能通过少量真实数据衔接,真正落地到物理机器人上。

5►结语与未来:离家用机器人还有多远?

尽管表现出色,MOMAGEN目前仍存在一些待解决的问题。首先,它依赖完整的场景三维模型和物体姿态信息,在真实世界中需要结合SAM2等视觉感知模型进行前期环境扫描;其次,目前仅支持导航与操作交替进行的任务,尚未覆盖开门、爬楼梯等需要全身协同的复杂操作;最后,数据生成的计算成本较高,普通实验室服务器难以高效运行。

针对这些局限,团队已规划了下一步研究方向:融合视觉感知实现端到端数据生成,无需提前构建场景模型;扩展约束体系,支持全身协同操作;优化算法效率,降低计算门槛。

未来,或许只需工程师录制一段"清洁餐桌"的演示,MOMAGEN就能生成上万种场景的数据,快速教会机器人适应不同家庭的环境。当数据不再是瓶颈,那个能真正帮我们分担家务的机器人,可能比想象中来得更快。

论文链接:https://www.arxiv.org/pdf/2510.18316

项目地址:https://momagen.github.io/

声明:本文来自具身智能大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯