李飞飞发布CaP-X框架 真实机械臂零样本完成复杂任务

2026年04月04日 10:43
本文共计3737个字,预计阅读时长13分钟。
来源/机器人大讲堂 责编/爱力方

机器人控制一直困在两条难以兼容的路径里原地打转。传统编程方式稳定、精准、可解释,却要工程师一点点堆砌感知、规划、运动、避障逻辑,换个任务、换台设备就要全部推翻重写,成本高到难以规模化。如今主流的视觉-语言-动作模型VLA,靠着海量数据实现端到端指令执行,可黑盒特性带来调试困难、泛化薄弱,长视野任务频繁崩溃,迁移到新设备又要重新收集数据训练。

有没有一种方式,能同时守住代码的可靠性与大模型的通用性?

Image

近日,李飞飞团队联合伯克利、斯坦福、NVIDIA给出答案:让大模型自己写代码控制机器人。

研究团队推出全新框架CaP-X,不靠训练、不靠任务数据集,仅凭大模型生成可执行代码,就能驱动仿真与真实机械臂完成堆叠、擦拭、插销、双手协同等复杂操作,部分任务成功率直接追上人类 专家 。

PART 01

告别高层API拐杖,从最底层原语重新评测代码智能体

过往代码驱动机器人的研究,大多藏着一个难以回避的隐患:模型展现出的能力,究竟来自自身的代码生成与推理,还是人类提前封装好的高层函数在兜底。一句简单的高层接口调用,背后是打包完成的分割、抓取、移动、放置全套逻辑,模型只需要按顺序调用,根本不涉及底层几何推理与控制编写。

Image

(上图)CaP-Bench 显示:12 个模型在 7 项机器人代码生成任务上成功率仍显著低于人类专家,虽视觉 - 语言模型在其他领域接近人类,但操控代码生成差距明显。(下图)CaP-Gym 集成三大环境,团队提出无需训练的 CaP-Agent0,无专属数据下性能接近人类,与后训练 VLA 相当甚至部分超越。未来将结合代码策略(高层规划)与 VLA(底层执行),CaP-X 为通用机器人提供轻量化、通用、稳健路径,加速实体智能落地。

为了撕开这种表面繁荣,团队构建了CaP-Gym交互环境与CaP-Bench评测基准,不再给模型提供舒适的人工封装接口,而是从抽象层级、交互模式、感知模态三个方向,彻底检验模型在无脚手架条件下的真实能力。

Image

CaP-Bench 评估等级对比

抽象层级从人类设计的高层宏指令,一路下沉到最基础的逆运动学求解、文本引导分割等原子原语;交互方式从单轮次代码生成,延伸到多轮迭代调试与故障恢复;感知输入则覆盖无噪声状态、原始视觉信号、文本化视觉差分反馈等多种形态。

Image

评测覆盖12个主流语言与视觉语言模型,结果 显示 即便最顶尖的闭源模型,在单轮次、底层原语的严苛条件下,任务成功率远低于人类手写代码的水平。随着抽象层级提升,成功率会明显上涨,证明现有模型高度依赖人工先验结构,失去设计好的脚手架就会大幅失效。

Image

随着原语抽象层级提升,开源与闭源模型在所有任务上的平均任务成功率变化。

Image

代码执行成功率与原语抽象层级(及恢复机制)的关系

更反直觉的是,直接输入原始RGB图像会拖累性能,模型难以把视觉画面与代码逻辑对齐,把视觉变化转化为结构化文本描述的视觉差分模块,才是提升代码生成质量的关键。

PART 02

CaP-Agent0免训练框架,底层原语也能跑出人类水平

基于评测中发现的短板,团队打造出免训练智能体框架CaP-Agent0,不依赖任何任务数据与微调,仅靠机制设计,就在底层原语条件下把任务成功率拉到接近人类水准。

Image

CaP-Agent0 集成了自动合成的辅助技能库—— 该技能库由编码智能体在 CaP-Bench 评测过程中生成;同时包含一个视觉差异模型(VDM),负责对初始场景及每一轮交互后的场景变化给出文本描述;此外还采用了并行推理系统,即向多个编码智能体输入相同提示。这些编码智能体分别生成可用于求解任务的候选代码,随后由集成智能体将多份生成结果合成最终代码片段,并在搭载机器人环境的 Python 沙箱中执行,该环境既可以是 Robosuite 等仿真器,也可以是真实机器人

框架把视觉差分能力嵌入每一步交互闭环,代码执行后不再只返回执行日志,而是通过视觉差分模块对比前后场景变化,用结构化文本告诉模型物体位置、抓取状态、任务进度,把难以对齐的像素信息转化为模型擅长处理的文本信号,彻底绕开跨模态匹配难题。

运行过程中,模型会反复用到坐标转换、点云计算、最优抓取位姿筛选等通用几何逻辑,CaP-Agent0会自动从成功执行的代码中提取这些高频模式,构建可持久化的技能库。这些技能不是人工预设的高层接口,而是模型自主发现的通用工具,既保留底层原语的表达能力,又避免重复编写脆弱代码带来的错误。

为了进一步提升鲁棒性,框架采用并行推理策略,同一轮次生成多组候选代码,既可以用单一模型在不同温度下生成多样方案,也可以联合多个顶尖模型共同生成,再由中央智能体融合出最优执行代码。这种方式大幅降低单次生成的失误概率,还能减少完成任务所需的平均交互轮次。

Image

CaP-Agent0 消融实验。(左图):将VDM(M4)、技能库(+SL)与并行查询(+1M:仅 Gemini-3-Pro;+3M:Gemini-3-Pro、GPT-5.2 和 Claude Opus)相结合,相比基于低级 API 的单轮设置,性能显著提升。(右图):在 7 项 CaP-Bench 任务中的 4 项上,CaP-Agent0 在单轮设置下取得了与人类专家代码相当或更高的成功率。

在7项核心操控任务中,CaP-Agent0有4项达成甚至超越人类专家手写代码的成功率,即便只使用底层原语,性能也远超单轮次高层API基线,与经过大量数据训练的VLA模型相比毫不逊色。

PART 03

CaP-RL:强化学习直接训代码模型,仿真到现实几乎零差距

在免训练框架之外,团队还探索了用强化学习直接优化代码生成模型的路径,推出CaP-RL方案。选用Qwen2.5-Coder-7B-Instruct作为基础模型,采用GRPO算法在仿真环境中进行在线微调,奖励信号直接来自环境执行的真实结果。

Image

在初始位置扰动(Pos)与指令扰动(Task)条件下,OpenVLA(Kim et al., 2024)、π₀(Black et al., 2024)、π₀.₅(Physical Intelligence et al., 2025)及 CaP-Agent0 在 LIBERO-PRO(Zhou et al., 2025) 的 libero-object、libero-goal、libero-spatial 三大基准上的任务平均性能。

训练过程只在仿真的特权状态下进行,避开感知噪声带来的奖励抖动,让模型专注学习正确的任务逻辑与代码链条。训练后模型的代码编译率与执行稳健性大幅提升,立方体举起任务成功率从25%提升至80%,堆叠任务从4%提升至44%,擦拭任务从30%提升至93%。

Image

这套训练好的模型可以零样本直接迁移到真实的Franka机械臂,立方体举起成功率达到84%,堆叠成功率达到76%,仿真与现实之间的性能差距极小。

Image

和训练前相比,模型不再跳步执行、不再凭空假设物体状态,而是完整遵循识别、抓取、搬运、放置的因果流程,还能根据物体尺寸动态计算堆叠高度,从硬编码偏移量升级为真正的几何推理。

PART 04

真实世界零样本跑通:找东西、解数学题、堆物体全拿下

CaP-X的突破不只停留在仿真环境,更能直接落地到真实世界,适配Franka Panda、AgiBot G1等不同机械体,全程零样本完成多样化复杂任务。

杂乱桌面上,模型可以精准定位少见的自动铅笔芯盒,依托视觉定位与分割模型完成可靠抓取;倒扣的杯子下方藏着目标物体,模型会按顺序逐个掀开,依靠闭环视觉反馈完成机械搜索;桌面上摆放带数字的木块,模型能看懂物理世界中的数学题,自主规划抓取与放置逻辑,完成符号推理。

执行过程中模型还能接受人类实时反馈,第一次抓取苹果位置过高失败,收到提示后立刻调整代码,降低抓取位置顺利完成操作。面对堆叠任务,模型能基于物理常识做出稳定规划,把方形物体作为底座,圆形物体放在上方,搭建出最高且稳定的结构。甚至在按电梯按钮这类任务中,模型会主动调用SciPy工具库计算墙面法向量,精准判断按压方向,展现出极强的工具使用能力。

从单臂操控、双手协作到移动操作,从简单抓取到长视野推理,CaP-Agent0不依赖微调、不依赖任务数据集,仅靠代码生成就能稳定完成任务。

PART 05

代码控制,正在重新定义机器人的未来

CaP-X框架重新定义了通用机器人控制路径,即以大模型为核心、代码原语为载体、闭环反馈为驱动,将自然语言指令转化为可执行、可调试、可复用的控制代码,跳出端到端黑盒与人工手写代码的局限。

它证明大模型可替代人类工程师,从底层原语编写稳健控制代码,无需高层API依赖;多轮迭代、文本化视觉反馈等设计,补齐了模型几何推理与代码鲁棒性的短板,而代码载体自带优秀跨域迁移能力,仿真逻辑可直接落地真实设备。

后续,团队计划将代码策略与VLA模型结合,用代码负责高层规划与错误恢复,VLA负责底层精细执行。从人工编程、数据驱动到大模型自主写代码操控,CaP-X为通用机器人指明了更轻量化、通用且稳健的方向,将加速通用实体智能落地。

论文地址:

https://arxiv.org/pdf/2603.22435

项目地址 : 

https://capgym.github.io/

来源:李飞飞最新CaP-X框架:真实机械臂零样本也能搞定复杂任务! | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/