IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”

IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”

2025年11月25日 11:47
本文共计3706个字,预计阅读时长13分钟。
来源/CAAI认知系统与信息处理专委会 责编/爱力方

实现电影“I,Robot”中的通用机器人是机器人研究学者一直追求的目标。然而,在非结构化场景中实现机器人的通用操作仍然是有挑战的。基于学习的方法被认为是实现通用操作的有效路径,但是仍然存在1) 和人类非自然交互 2) 数据稀缺 3)有限的感知能力 4)有限的决策能力 5)不准确的事前事后处理 6)不够鲁棒的策略 7)环境转移性差等挑战。

近期北京邮电大学方斌教授团队联合三星中国研究院、清华大学孙富春教授、刘华平教授以及德国汉堡大学张建伟院士等发表在International Journal of Robotics Research的文章“What Foundation Models can Bring for Robot Learning in Manipulation : A Survey”,探讨了基础模型如何赋能机器人智能操作。

https://journals.sagepub.com/eprint/NHMPYHAYJ6SUVQYSUWZI/full

基础模型的出现点燃了研究学者们解决上述问题的希望: 1)LLMs能够直接生成策略代码或动作序列,并促进机器人与环境的自然交互。2)VFMs增强了机器人在开放环境下的感知能力。3)VLMs作为视觉与语言对齐的核心基础,促进了多模态信息的理解。4)LMMs进一步扩展了模态范围,涵盖3D点云、触觉等更多感知维度。 5)VGMs可根据文本或图像提示生成二维图像或三维网格,用于辅助仿真环境中的场景生成或者环境转移。 6)RFMs作为端到端策略模型,能够基于输入的观测信息直接输出动作。

然而,我们认为当前的有限条件下利用单一基础模型实现通用操作是不够的。当前RFMs作为单一模型端到端训练的方法,保证99.X%的成功率仍然是一项挑战。因此我们基于自动驾驶的发展路径认为初期的通用操作是需要一个框架的。同时我们根据通用操作所存在的挑战,将L0级别的通用操作限定在:1)机器人学习能力为提升旧技能2)操作刚性物体3)在静态环境 4)实现短程任务5)较低的力/位精度要求。通过不断地提高各个模块的性能可以实现从L0级别到最终的统一操作。

我们基于通用操作的定义及机器人学习的发展历程提出了一个通用的操作框架,并介绍基础模型在这个框架中的不同模块所扮演的角色。我们希望这篇综述不仅能够让读者了解到基础模型能够带给通用操作的机遇也能激发他们对通用操作框架的探索。

Foundation Models for Interaction:

人与机器人(或其他智能体)之间的交互主要有两种方式:1)向机器人提供任务指令,帮助其理解任务目标并自主完成任务;2)与人类或其他智能体协作完成任务,共享工作空间信息,并在发现有用或纠错信息时,向机器人传递纠正性指令,以优化其当前的动作。

在交互方面,与使用固定提问模板来消除指令歧义的传统方法相比,基础模型在处理含糊指令和纠正指令时具有以下优势:1)能够实现更加自然的语言交流;2)具备多模态感知能力,可检测出更多类型的歧义;3)拥有强大的先验知识,从而更好地理解用户意图。

Foundation Models for Pre- and Post-conditions Detection:

在前置条件与后置条件检测中,需要识别任务的初始条件和终止条件。在前置条件检测中,主要关注识别环境中的物体并观察这些物体的affordance。在后置条件检测中,则需要判断任务是否被成功执行,并在技能执行后提供失败原因。目前,关于任务终止条件识别的研究较少。因此,本节主要关注与前置条件检测相关的foundation models在物体可供性检测和物体识别中的应用。

在前置与后置条件检测中的Object Affordance和Object Recognition方面,foundation models相比于传统的方法具有以下优势:1)具备开放集affordance检测与分割的感知能力,能够实现对新类别的零样本识别;2)基础模型所具备的强大先验知识加速了object affordance的学习过程;3)基础模型能够帮助更好地理解affordance,从而选择更精确的操作姿态。

Foundation Models for Hierarchy of Skills: 

Skill Hierarchy与任务与运动规划(Task and Motion Planning, TAMP)领域密切相关。

将基于学习的方法引入 TAMP,可以利用以往的示例与经验进行更具信息性的决策,从而提升规划的灵活性与泛化能力。Skill Hierarchy模型可以通过文本或视频进行训练,这类似于人类通过操作手册或教学视频学习装配过程的方式。

基础模型带来的机遇是1)基础模型能够辅助处理和理解自然语言输入;2)基础模型通过获取世界知识和常识推理能力,提升了其感知与推理水平,这有助于增强技能层次任务的可扩展性和泛化能力。

Foundation Models for State: 

State主要关注对环境、物体以及机器人自身状态的感知。Foundation models for pre- and post-condition detection介绍了低层次的感知方法,而本节将重点阐述用于三维重建和位姿估计的高层次的方法。

当前,越来越多的研究开始在操作任务中采用隐式表示的三维重建方法。然而,这些隐式三维表示目前缺乏场景语义信息,且不易进行三维编辑或修改。位姿估计主要分为instance-level,category-level 和 unseen object 方法。但是,实现在开放环境下的zero-shot pose estimation仍然是一个挑战。

在State中的三维重建和6D 位姿估计方面:1)基础模型可辅助生成具备语义信息的场景重建;2)基础模型强大的二维特征提取能力可用于三维特征提升(3D lifting),从而有助于提取高质量的三维特征;3)基础模型使得开放集姿态估计成为可能。

Foundation models for policy

Policy分为两类:基于object/action的方法和end-2-end的方法。基于object/action的方法会从观测中提取特征,例如bbox、mask或3D spatial action-value map。这些提取的特征随后会被转换为关键位姿,用于运动规划以引导机器人运动。而端到端的方法则直接将观测量映射为机器人动作,从而无需进行特征提取。

得益于基础模型,当前的策略逐渐发展为通用目标的策略。我们根据策略的输出类型,将策略分类成Vision-Language-Action-Code (VLAC), Vision-Language-Action-Key-Pose (VLAKP), Vision-Language-Action-Dense-Pose (VLADP). VLAKP类似于object/action的方法,而VLADP类似于端到端的方法。

强化学习因其无需大量标注数据即可通过探索环境进行学习的能力,而受到研究者的广泛关注。由于基础模型具有强大的能力,许多研究旨在利用基础模型前所未有的能力来应对强化学习所面临的挑战,例如奖励函数设计、任务分层以及探索效率等问题。

Foundation models for manipulation data generation. 

操作数据分为真机数据, 仿真数据,互联网数据,同时也可以在以上数据基础上进行数据增强。

真机数据往往需要遥操作设备进行采集,传统的遥操设备存在不便携、成本高及不够直接等缺陷。当前研究者想研究低成本遥操设备去解决以上问题。

仿真主要包括仿真器,场景生成及示教的生成。相比于原有的手工场景生成,基础模型能够实现场景布置及3D资产的自动化生成。同时,基础模型也能够实现自动化及逼真的数据增强。

以上是我们调研的基础模型对于各个模块所带来的机遇,但是这里仍然有很多开放问题需要去讨论。我们最后讨论了通用操作框架的设计逻辑, 通用操作框架需要具备怎样的学习能力,如何更好的利用网络大规模视频数据,如何更好的设计后验条件检测, 如何利用基础模型的先验知识去设计末端执行器及促进灵巧操作和全身运动控制,如何建立一个通用操作基准的标准。

希望这篇综述能够对机器人社区做出贡献,由人工智能驱动的无人机和无人车已经成功进入日常生活,展示了它们在实际应用中的有效性。人工智能驱动的通用操作能走得更远吗?

 《International Journal of Robotics Research》(简称IJRR)创刊于1982年,是第一本有关机器人研究的学术出版物,也是当今机器人学领域的顶刊。该论文是北邮作为通讯单位在IJRR期刊发表的首篇论文,通讯作者为北邮人工智能学院方斌教授,博士生孙宇昊为共同作者。

Dingzhe Li, Yuhao Sun, Bin Fang* et.al. What foundation models can bring for robot learning in manipulation: A survey. The International Journal of Robotics Research,2025,1-52.

来源:CAAI认知系统与信息处理专委会

声明:本文来自CAAI认知系统与信息处理专委会,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯