智元机器人ACoT-VLA框架获CVPR 2026收录实现机器人动作空间自主决策

作者：李鑫出品：具身智能大讲堂

机器人接到自然语言指令后，如何精准转化为流畅的物理动作，一直是通用机器人研发的核心卡点。

近日智元机器人联合北航研究团队提出的全新ACoT-VLA框架，正式入选计算机视觉顶会 CVPR 2026。

该框架跳出了传统视觉-语言空间的间接推理模式，让机器人直接在动作空间完成思考与决策，在LIBERO、LIBEROPlus、VLABench三大权威基准测试中创下98.5%、84.1%、47.4%的成功率新高，同时在真实机器人平台的多任务测试中表现亮眼。

目前，ACoT-VLA 已作为 AGIBOT WORLD CHALLENGE的官方基线模型正式开源，助力全球开发者攻克复杂机器人操控难题。

AGIBOT WORLD CHALLENGE是由智元发起的全球性具身智能挑战赛，旨在攻克真实场景下的机器人通用操控难题。参赛者可基于 ACoT-VLA 开源代码，在智元提供的AgiBot World Colosseo仿真平台Genie Sim 3.0上进行二次开发与创新。

PART 01

通用机器人的核心卡点：语义与动作的天然鸿沟

Vision-Language-Action（VLA）模型是当前通用机器人的核心策略基础，这类模型依托预训练的视觉-语言模型（VLM），将视觉观测和语言指令编码为隐式特征，再由动作解码器转化为机器人的执行动作。但在实际应用中，这类模型始终绕不开一个关键问题——语义-运动鸿沟。

VLM的预训练数据多来源于互联网海量文本和图像，核心优化目标是语义对齐和语言理解，而非物理世界的运动规律和动力学特征，其编码的知识本身就与机器人的动作执行需求脱节。即便后续出现的世界模型类方法，通过预测未来视觉状态为动作生成提供指导，本质上仍停留在视觉表征层面，并未触达动作执行的核心。

不管是通过语言生成子任务的间接推理，还是通过合成目标图像的视觉引导，现有方法都只是在输入空间做文章，无法传递精准动作执行所需的细粒度、高维度运动信息。

就像用文字描述舞蹈动作，再精准的语义表达，也难以复刻出肌肉控制和肢体协调的细节，这种间接指导模式，直接导致机器人在复杂操作、长周期任务中容易出现误差积累，面对环境扰动时的鲁棒性也大打折扣。

PART 02

ACoT-VLA框架提出把思考过程搬到动作空间里

针对语义-运动鸿沟的核心问题，智元北航联合研究团队提出了Action Chain-of-Thought（ACoT）全新推理范式，彻底改变了通用机器人的思考逻辑，不再让机器人在语言或视觉空间做抽象推理，而是直接将推理过程构建在动作空间中，把思考转化为一系列结构化的粗粒度动作意图，让每一步推理都直接指向动作执行，从根源上解决间接指导的信息损耗问题。

为此团队设计了ACoT-VLA一体化框架，核心搭建了两个高度互补的推理模块，分别从显式和隐式两个维度为动作生成提供精准指导。

其中显式动作推理器（EAR）以轻量级Transformer为基础，能基于多模态观测信息，自主合成粗粒度的动作参考轨迹，相当于为机器人规划出一条明确的动作路线，提供直接可执行的动作空间指导；隐式动作推理器（IAR）则聚焦于VLM内部的多模态表征，通过可学习查询与下采样后的特征做跨注意力建模，从语言指令的语义和视觉场景的细节中，提取潜在的动作先验分布，捕捉那些没有被明确表述但隐含在环境中的动作倾向。

简单来说，EAR是机器人的"动作规划师"，给出清晰的动作轨迹参考；IAR则是"环境感知员"，挖掘指令和场景中隐藏的动作线索，两者协同形成的动作思考链，让下游的动作生成模块能同时获得显式轨迹指导和隐式行为先验，实现更精准、更稳健的动作预测。

在框架的训练设计上，团队还针对性解决了推理器训练不稳定的问题，采用教师强制稳定策略：训练阶段直接用真实的动作轨迹生成显式指导，避免EAR的预测误差干扰动作头的训练；推理阶段则切换为完全自条件模式，由EAR自主生成参考动作，确保模型在实际部署时能独立完成决策。整个框架通过流匹配均方误差损失函数优化，平衡显式动作推理和最终动作生成的训练目标，让两个核心模块能协同优化、高效配合。

PART 03

三大基准刷新纪录，各任务表现全面领先

为了验证ACoT-VLA的实际性能，团队在三个主流仿真基准平台开展了全面测试，同时与当前主流的VLA模型、世界模型类方法做了对比，结果显示ACoT-VLA在所有测试维度均实现领先，多项指标刷新SOTA。

在LIBERO基准测试中，该框架拿下98.5%的平均成功率，在空间感知、物体中心操作、目标完成、长周期推理四个子套件中均排名第一，其中长周期任务套件的成功率达到96.0%，相比此前的最优方法有显著提升。

长周期任务对机器人的误差控制能力要求极高，而ACoT-VLA凭借动作空间的直接推理，避免了语言或视觉推理的误差积累，成为提升该类任务性能的关键。

LIBEROPlus作为LIBERO的升级版，重点考察模型在环境扰动下的鲁棒性，设置了相机视角变化、机器人初始状态偏移、语言指令变体、光照变化、背景纹理改变、传感器噪声、物体布局变化七大扰动维度，总计10030个评估episode，测试条件更贴合真实应用场景

。ACoT-VLA在这一基准中实现84.1%的平均成功率，在相机视角偏移、机器人初始状态扰动、传感器噪声等传统方法的薄弱环节，分别实现11.6%、16.3%、12.5%的成功率提升，充分证明了动作空间指导在提升模型抗干扰能力上的核心价值。

在大规模的VLABench基准测试中，团队采用意图得分（IS）和进度得分（PS）双指标评估，ACoT-VLA在分布内、跨类别、常识推理、语义指令、未知纹理五大赛道的双指标均位列第一，其中未知纹理赛道的意图得分提升12.6%、进度得分提升7.2%，展现出极强的分布外泛化能力，即便是面对从未见过的物体外观，也能准确理解指令并完成动作执行。

团队还开展了系统性的消融实验，验证各核心模块的有效性。以LIBERO基准为测试对象，单独加入EAR模块，能将平均成功率从96.9%提升至98.3%；单独加入IAR模块，平均成功率提升至98.1%；而当两个模块结合时，成功率进一步达到98.5%的最佳成绩，清晰证明了显式动作轨迹和隐式动作先验的互补价值。同时实验还发现，EAR模块的参数规模并非越大越好，300M参数的配置表现最优，过大的参数会导致模型过拟合训练数据中的虚假关联，反而生成有偏差的参考轨迹，影响最终动作执行。

PART 04

跨机器人平台适配，多任务成功率达66.7%

仿真测试的优异表现，最终需要落地到真实机器人平台才能体现价值。团队在智元精灵 G1和AgileX两款不同自由度、不同架构的机器人平台上，开展了真实世界的操作测试，选定擦拭污渍、倒水、开放集抓取三大典型任务，全面验证ACoT-VLA的实际部署能力。

这三大任务分别对应了机器人操作的不同核心能力：擦拭污渍需要精准的力控调节和工具-表面的接触控制，属于接触密集型操作；倒水涉及抓取、对准、控流、归位等多步骤连贯动作，对动作的精细度和连贯性要求极高；开放集抓取则要求机器人根据随机的自然语言指令，从多样的桌面布局中精准识别并抓取目标物体，考验模型的指令理解和视觉识别与动作的协同能力。

测试结果显示，ACoT-VLA在真实场景中的平均成功率达到66.7%，显著高于对比模型π₀.₅的61.0%和π₀的33.8%。更值得关注的是，该框架在22自由度的智元精灵G1 和14自由度的AgileX平台上均表现稳定，开放集抓取任务在两款平台上的成功率均保持较高水平，证明其具备良好的跨体化适配能力，无需针对特定机器人平台进行大量的重新训练和调优，大幅降低了实际部署的成本。

在推理效率上，ACoT-VLA也实现了性能与开销的平衡。相比基础模型，加入EAR和IAR模块后，推理延迟仅从91ms小幅增加至112ms，这种轻微的计算开销增加，换来的是性能的大幅提升，为其在实际机器人平台的部署奠定了基础。

PART 05

3D空间推理与轻量化，解锁更复杂机器人操作

尽管ACoT-VLA在仿真和真实场景中均取得了突破性表现，但团队也明确了当前框架的局限性，以及后续的核心探索方向。目前框架的EAR和IAR模块虽未带来过大的计算开销，但对于算力资源受限的小型、便携式机器人平台，仍有进一步轻量化优化的空间，如何在保持性能的前提下压缩模型参数、降低推理延迟，是实现更广泛部署的关键。

此外，当前机器人的动作表示主要基于关节角度、末端执行器姿态等低级别控制指令，这类表征虽能精准描述动作本身，却缺乏明确的几何结构，难以支持更高级的空间推理，比如多物体协同操作、精密装配中的接触几何判断等，限制了ACoT范式潜力的充分释放。

团队将后续的研究重点放在两个方向：

一是探索富含空间接地信息的动作表示方法，让ACoT的推理过程能在几何可解释的3D空间中进行，让机器人能更好地理解物体间的空间关系，实现更复杂的空间操作；

二是持续推进模型的轻量化设计，通过模型压缩、量化、蒸馏等技术，让ACoT-VLA能适配更多算力受限的机器人平台，进一步降低落地门槛。从语言和视觉空间的间接推理，到动作空间的直接思考，智元与北航联合提出 ACoT-VLA 框架，不仅刷新了通用机器人策略的性能指标，更重要的是为通用机器人的研发提供了全新的范式思路。

当机器人能直接用动作完成思考与决策，语义与动作之间的鸿沟被彻底填平，通用机器人在工业生产、家庭服务、商业服务等场景的落地应用，也将迎来更快速的发展。

论文链接：https://arxiv.org/abs/2601.11404

代码仓库：https://github.com/AgibotTech/ACoT-VLA

来源：CVPR 2026顶会收录！智元机器人提出ACoT-VLA框架！让机器人在动作空间完成思考决策！ | 具身研习社

通知

尊敬的用户

user

资讯

智元机器人ACoT-VLA框架获CVPR 2026收录实现机器人动作空间自主决策

智元机器人ACoT-VLA框架获CVPR 2026收录实现机器人动作空间自主决策

相关图文

理想汽车年内或推出双轮机器人

智元ACoT-VLA入选CVPR 2026 开源助力AGIBOT挑战赛

人形机器人灵巧手技术成制胜关键

OpenAI硬件与机器人主管离职质疑军方合作未经充分评估

至简动力半年融资20亿领跑具身智能赛道

苏黎世联邦理工研发仿生气动机械手精准复刻人体解剖结构

热门资讯

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

微软研究高温超导技术破解数据中心供电难题

美国一家人形机器人企业突发倒闭

海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

LaST₀：赋予机器人物理直觉，摆脱语言依赖像人类思考动作

顶级风投布局AI虚拟人与实时互动影像生成赛道

快讯

黄仁勋将发布突破性新芯片

黄仁勋署名长文：AI基建迎来最大规模发展

荣耀Magic V6首发端侧AI智能体打造龙虾宇宙生态

甲骨文反驳SaaS末日论称AI增长将持续到2027年

金融圈严控高杠杆投资

3月车市反弹在即近30款新车密集上市华系品牌占比超四成

中汽协：2月新能源汽车销量76.5万辆同比下滑14.2%

360发布OpenClaw安全指南解决AI Agent提示词注入问题

小米汽车获无车位线识别专利智能停车技术再升级

国产大模型领跑AI龙虾热潮云端部署需求暴涨

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

智元机器人ACoT-VLA框架获CVPR 2026收录 实现机器人动作空间自主决策

智元机器人ACoT-VLA框架获CVPR 2026收录 实现机器人动作空间自主决策

相关图文

理想汽车年内或推出双轮机器人

智元ACoT-VLA入选CVPR 2026 开源助力AGIBOT挑战赛

人形机器人灵巧手技术成制胜关键

OpenAI硬件与机器人主管离职 质疑军方合作未经充分评估

至简动力半年融资20亿 领跑具身智能赛道

苏黎世联邦理工研发仿生气动机械手 精准复刻人体解剖结构

热门资讯

豆包亮相春晚 送出超10万份科技礼品及8888元现金红包

微软研究高温超导技术破解数据中心供电难题

美国一家人形机器人企业突发倒闭

海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

LaST₀：赋予机器人物理直觉，摆脱语言依赖像人类思考动作

顶级风投布局AI虚拟人与实时互动影像生成赛道

快讯

黄仁勋将发布突破性新芯片

黄仁勋署名长文：AI基建迎来最大规模发展

荣耀Magic V6首发端侧AI智能体 打造龙虾宇宙生态

甲骨文反驳SaaS末日论 称AI增长将持续到2027年

金融圈严控高杠杆投资

3月车市反弹在即 近30款新车密集上市 华系品牌占比超四成

中汽协：2月新能源汽车销量76.5万辆 同比下滑14.2%

360发布OpenClaw安全指南 解决AI Agent提示词注入问题

小米汽车获无车位线识别专利 智能停车技术再升级

国产大模型领跑AI龙虾热潮 云端部署需求暴涨

推荐专栏

爱力方

机器人大讲堂

下一篇

智元机器人ACoT-VLA框架获CVPR 2026收录实现机器人动作空间自主决策

智元机器人ACoT-VLA框架获CVPR 2026收录实现机器人动作空间自主决策

OpenAI硬件与机器人主管离职质疑军方合作未经充分评估

至简动力半年融资20亿领跑具身智能赛道

苏黎世联邦理工研发仿生气动机械手精准复刻人体解剖结构

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

荣耀Magic V6首发端侧AI智能体打造龙虾宇宙生态

甲骨文反驳SaaS末日论称AI增长将持续到2027年

3月车市反弹在即近30款新车密集上市华系品牌占比超四成

中汽协：2月新能源汽车销量76.5万辆同比下滑14.2%

360发布OpenClaw安全指南解决AI Agent提示词注入问题

小米汽车获无车位线识别专利智能停车技术再升级

国产大模型领跑AI龙虾热潮云端部署需求暴涨