李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

机器人控制一直困在两条难以兼容的路径里原地打转。传统编程方式稳定、精准、可解释，却要工程师一点点堆砌感知、规划、运动、避障逻辑，换个任务、换台设备就要全部推翻重写，成本高到难以规模化。如今主流的视觉-语言-动作模型VLA，靠着海量数据实现端到端指令执行，可黑盒特性带来调试困难、泛化薄弱，长视野任务频繁崩溃，迁移到新设备又要重新收集数据训练。

有没有一种方式，能同时守住代码的可靠性与大模型的通用性？

近日，李飞飞团队联合伯克利、斯坦福、NVIDIA给出答案：让大模型自己写代码控制机器人。

研究团队推出全新框架CaP-X，不靠训练、不靠任务数据集，仅凭大模型生成可执行代码，就能驱动仿真与真实机械臂完成堆叠、擦拭、插销、双手协同等复杂操作，部分任务成功率直接追上人类专家。

PART 01

告别高层API拐杖，从最底层原语重新评测代码智能体

过往代码驱动机器人的研究，大多藏着一个难以回避的隐患：模型展现出的能力，究竟来自自身的代码生成与推理，还是人类提前封装好的高层函数在兜底。一句简单的高层接口调用，背后是打包完成的分割、抓取、移动、放置全套逻辑，模型只需要按顺序调用，根本不涉及底层几何推理与控制编写。

（上图）CaP-Bench 显示：12 个模型在 7 项机器人代码生成任务上成功率仍显著低于人类专家，虽视觉 - 语言模型在其他领域接近人类，但操控代码生成差距明显。（下图）CaP-Gym 集成三大环境，团队提出无需训练的 CaP-Agent0，无专属数据下性能接近人类，与后训练 VLA 相当甚至部分超越。未来将结合代码策略（高层规划）与 VLA（底层执行），CaP-X 为通用机器人提供轻量化、通用、稳健路径，加速实体智能落地。

为了撕开这种表面繁荣，团队构建了CaP-Gym交互环境与CaP-Bench评测基准，不再给模型提供舒适的人工封装接口，而是从抽象层级、交互模式、感知模态三个方向，彻底检验模型在无脚手架条件下的真实能力。

CaP-Bench 评估等级对比

抽象层级从人类设计的高层宏指令，一路下沉到最基础的逆运动学求解、文本引导分割等原子原语；交互方式从单轮次代码生成，延伸到多轮迭代调试与故障恢复；感知输入则覆盖无噪声状态、原始视觉信号、文本化视觉差分反馈等多种形态。

评测覆盖12个主流语言与视觉语言模型，结果显示即便最顶尖的闭源模型，在单轮次、底层原语的严苛条件下，任务成功率远低于人类手写代码的水平。随着抽象层级提升，成功率会明显上涨，证明现有模型高度依赖人工先验结构，失去设计好的脚手架就会大幅失效。

随着原语抽象层级提升，开源与闭源模型在所有任务上的平均任务成功率变化。

代码执行成功率与原语抽象层级（及恢复机制）的关系

更反直觉的是，直接输入原始RGB图像会拖累性能，模型难以把视觉画面与代码逻辑对齐，把视觉变化转化为结构化文本描述的视觉差分模块，才是提升代码生成质量的关键。

PART 02

CaP-Agent0免训练框架，底层原语也能跑出人类水平

基于评测中发现的短板，团队打造出免训练智能体框架CaP-Agent0，不依赖任何任务数据与微调，仅靠机制设计，就在底层原语条件下把任务成功率拉到接近人类水准。

CaP-Agent0 集成了自动合成的辅助技能库—— 该技能库由编码智能体在 CaP-Bench 评测过程中生成；同时包含一个视觉差异模型（VDM），负责对初始场景及每一轮交互后的场景变化给出文本描述；此外还采用了并行推理系统，即向多个编码智能体输入相同提示。这些编码智能体分别生成可用于求解任务的候选代码，随后由集成智能体将多份生成结果合成最终代码片段，并在搭载机器人环境的 Python 沙箱中执行，该环境既可以是 Robosuite 等仿真器，也可以是真实机器人。

框架把视觉差分能力嵌入每一步交互闭环，代码执行后不再只返回执行日志，而是通过视觉差分模块对比前后场景变化，用结构化文本告诉模型物体位置、抓取状态、任务进度，把难以对齐的像素信息转化为模型擅长处理的文本信号，彻底绕开跨模态匹配难题。

运行过程中，模型会反复用到坐标转换、点云计算、最优抓取位姿筛选等通用几何逻辑，CaP-Agent0会自动从成功执行的代码中提取这些高频模式，构建可持久化的技能库。这些技能不是人工预设的高层接口，而是模型自主发现的通用工具，既保留底层原语的表达能力，又避免重复编写脆弱代码带来的错误。

为了进一步提升鲁棒性，框架采用并行推理策略，同一轮次生成多组候选代码，既可以用单一模型在不同温度下生成多样方案，也可以联合多个顶尖模型共同生成，再由中央智能体融合出最优执行代码。这种方式大幅降低单次生成的失误概率，还能减少完成任务所需的平均交互轮次。

CaP-Agent0 消融实验。（左图）：将VDM（M4）、技能库（+SL）与并行查询（+1M：仅 Gemini-3-Pro；+3M：Gemini-3-Pro、GPT-5.2 和 Claude Opus）相结合，相比基于低级 API 的单轮设置，性能显著提升。（右图）：在 7 项 CaP-Bench 任务中的 4 项上，CaP-Agent0 在单轮设置下取得了与人类专家代码相当或更高的成功率。

在7项核心操控任务中，CaP-Agent0有4项达成甚至超越人类专家手写代码的成功率，即便只使用底层原语，性能也远超单轮次高层API基线，与经过大量数据训练的VLA模型相比毫不逊色。

PART 03

CaP-RL：强化学习直接训代码模型，仿真到现实几乎零差距

在免训练框架之外，团队还探索了用强化学习直接优化代码生成模型的路径，推出CaP-RL方案。选用Qwen2.5-Coder-7B-Instruct作为基础模型，采用GRPO算法在仿真环境中进行在线微调，奖励信号直接来自环境执行的真实结果。

在初始位置扰动（Pos）与指令扰动（Task）条件下，OpenVLA（Kim et al., 2024）、π₀（Black et al., 2024）、π₀.₅（Physical Intelligence et al., 2025）及 CaP-Agent0 在 LIBERO-PRO（Zhou et al., 2025）的 libero-object、libero-goal、libero-spatial 三大基准上的任务平均性能。

训练过程只在仿真的特权状态下进行，避开感知噪声带来的奖励抖动，让模型专注学习正确的任务逻辑与代码链条。训练后模型的代码编译率与执行稳健性大幅提升，立方体举起任务成功率从25%提升至80%，堆叠任务从4%提升至44%，擦拭任务从30%提升至93%。

这套训练好的模型可以零样本直接迁移到真实的Franka机械臂，立方体举起成功率达到84%，堆叠成功率达到76%，仿真与现实之间的性能差距极小。

和训练前相比，模型不再跳步执行、不再凭空假设物体状态，而是完整遵循识别、抓取、搬运、放置的因果流程，还能根据物体尺寸动态计算堆叠高度，从硬编码偏移量升级为真正的几何推理。

PART 04

真实世界零样本跑通：找东西、解数学题、堆物体全拿下

CaP-X的突破不只停留在仿真环境，更能直接落地到真实世界，适配Franka Panda、AgiBot G1等不同机械体，全程零样本完成多样化复杂任务。

杂乱桌面上，模型可以精准定位少见的自动铅笔芯盒，依托视觉定位与分割模型完成可靠抓取；倒扣的杯子下方藏着目标物体，模型会按顺序逐个掀开，依靠闭环视觉反馈完成机械搜索；桌面上摆放带数字的木块，模型能看懂物理世界中的数学题，自主规划抓取与放置逻辑，完成符号推理。

执行过程中模型还能接受人类实时反馈，第一次抓取苹果位置过高失败，收到提示后立刻调整代码，降低抓取位置顺利完成操作。面对堆叠任务，模型能基于物理常识做出稳定规划，把方形物体作为底座，圆形物体放在上方，搭建出最高且稳定的结构。甚至在按电梯按钮这类任务中，模型会主动调用SciPy工具库计算墙面法向量，精准判断按压方向，展现出极强的工具使用能力。

从单臂操控、双手协作到移动操作，从简单抓取到长视野推理，CaP-Agent0不依赖微调、不依赖任务数据集，仅靠代码生成就能稳定完成任务。

PART 05

代码控制，正在重新定义机器人的未来

CaP-X框架重新定义了通用机器人控制路径，即以大模型为核心、代码原语为载体、闭环反馈为驱动，将自然语言指令转化为可执行、可调试、可复用的控制代码，跳出端到端黑盒与人工手写代码的局限。

它证明大模型可替代人类工程师，从底层原语编写稳健控制代码，无需高层API依赖；多轮迭代、文本化视觉反馈等设计，补齐了模型几何推理与代码鲁棒性的短板，而代码载体自带优秀跨域迁移能力，仿真逻辑可直接落地真实设备。

后续，团队计划将代码策略与VLA模型结合，用代码负责高层规划与错误恢复，VLA负责底层精细执行。从人工编程、数据驱动到大模型自主写代码操控，CaP-X为通用机器人指明了更轻量化、通用且稳健的方向，将加速通用实体智能落地。

论文地址：

https://arxiv.org/pdf/2603.22435

项目地址：

https://capgym.github.io/

来源：李飞飞最新CaP-X框架：真实机械臂零样本也能搞定复杂任务！ | 机器人大讲堂

通知

尊敬的用户

user

资讯

李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

相关图文

腾讯云推出Agent Memory记忆服务破解大模型记忆难题

国产AI日调用量飙升

错失张雪机车重庆国资入局大模型与新能源

券商年报密集聚焦AI 特色打法全盘点

2026年中国AI服务企业综合排名解读

告别AI标准脸!阿里Wan2.7-Image发布:能写A4纸论文，还能像素级“捏脸”

热门资讯

谷歌新技术冲击市场美芯片股市值暴跌

360推出GEO产品360智见助力品牌AI精准识别价值

马斯克惊叹全球首例全脑仿真具身智能问世

萌友智能携手环球影业IP 2026年AI陪伴赛道洗牌灵魂成突围关键

字节跳动开源DeerFlow2.0 打造中国版超级智能体框架

清华开源OpenMAIC 打造AI多智能体虚拟课堂一键生成沉浸式互动教室

快讯

股改焕新双落地阶跃星辰15天跑通龙虾商业化能否冲刺国产大模型第三股

李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

千里科技AI+车商业化加速去年净利润与研发投入双双翻倍增长

从优必选与宇树科技财报看中国人形机器人差异化突围路径

从优必选宇树科技财报看中国人形机器人差异化突围路径

工信部扎实有序推动太空算力产业发展

全球电力超级周期加速到来

机器人产业：增长提

特斯拉一季度交付35.8万辆能源业务环比降38% 股价跌超5%

小米宣布上调部分手机价格部分产品涨幅达200元

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

李飞飞发布CaP-X框架 真实机械臂零样本完成复杂任务

李飞飞发布CaP-X框架 真实机械臂零样本完成复杂任务

相关图文

腾讯云推出Agent Memory记忆服务 破解大模型记忆难题

国产AI日调用量飙升

错失张雪机车 重庆国资入局大模型与新能源

券商年报密集聚焦AI 特色打法全盘点

2026年中国AI服务企业综合排名解读

告别AI标准脸!阿里Wan2.7-Image发布:能写A4纸论文，还能像素级“捏脸”

热门资讯

谷歌新技术冲击市场 美芯片股市值暴跌

360推出GEO产品360智见 助力品牌AI精准识别价值

马斯克惊叹全球首例全脑仿真具身智能问世

萌友智能携手环球影业IP 2026年AI陪伴赛道洗牌 灵魂成突围关键

字节跳动开源DeerFlow2.0 打造中国版超级智能体框架

清华开源OpenMAIC 打造AI多智能体虚拟课堂 一键生成沉浸式互动教室

快讯

股改焕新双落地 阶跃星辰15天跑通龙虾商业化能否冲刺国产大模型第三股

李飞飞发布CaP-X框架 真实机械臂零样本完成复杂任务

千里科技AI+车商业化加速 去年净利润与研发投入双双翻倍增长

从优必选与宇树科技财报看中国人形机器人差异化突围路径

从优必选宇树科技财报看中国人形机器人差异化突围路径

工信部扎实有序推动太空算力产业发展

全球电力超级周期加速到来

机器人产业：增长提

特斯拉一季度交付35.8万辆 能源业务环比降38% 股价跌超5%

小米宣布上调部分手机价格 部分产品涨幅达200元

推荐专栏

爱力方

机器人大讲堂

下一篇

李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

腾讯云推出Agent Memory记忆服务破解大模型记忆难题

错失张雪机车重庆国资入局大模型与新能源

谷歌新技术冲击市场美芯片股市值暴跌

360推出GEO产品360智见助力品牌AI精准识别价值

萌友智能携手环球影业IP 2026年AI陪伴赛道洗牌灵魂成突围关键

清华开源OpenMAIC 打造AI多智能体虚拟课堂一键生成沉浸式互动教室

股改焕新双落地阶跃星辰15天跑通龙虾商业化能否冲刺国产大模型第三股

李飞飞发布CaP-X框架真实机械臂零样本完成复杂任务

千里科技AI+车商业化加速去年净利润与研发投入双双翻倍增长

特斯拉一季度交付35.8万辆能源业务环比降38% 股价跌超5%

小米宣布上调部分手机价格部分产品涨幅达200元