开源模型评测超越GPT-4 具身智能迎来突破时刻-A³·爱力方

用开源生态评价开源模型，以开源模型驱动行业生态繁荣，基于繁荣生态构建更进一步的产业发展飞轮。

作者|皮爷

出品|产业家

过去一周，具身智能赛道，来了一则新消息。

在第三方测评平台RoboChallenge的榜单上，自变量开源端到端具身智能基础模型WALL-OSS以54.69分的成绩超越pi0，总分排名第二；此外，在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个单动作任务中排名第一。

这个榜单验证了国产模型在复杂物理交互场景下的国际竞争力，也给具身智能产业人士带来另外一个层面的期待：即在产业级开源模型的推动下，具身智能产业能否迎来新的“百花齐放”？

在过去的几年时间里，具身智能的创新进步更多呈点状分布，并没有出现和通用场景相似的从“基础模型—AIGC产品/Agent智能体”百花齐放的涌现时刻。

这次登榜的自变量开源WALL-OSS模型，让大家看到一个新答案。

一、排名第二：

具身智能再迎开源国产新底座

具身智能模型测评和大语言模型测评不同。

前者测评更多为“闭卷答题”，以静态数据输出与文本、图像指标为主；而具身模型的测评更加侧重“感知-决策-执行”的物理闭环，在测评时需要提前公开任务，核心验证对象为视频动作序列和任务成功率，类似于“开卷考试+实操考核”。

因此，相较于闭源模型“黑盒黑箱式”的打榜方式，用公开代码的开源具身智能模型参与测评，才是最货真价实，也是最能反应真实模型水平的评测方式。

这等同于把学霸的实时解题思路进行全面公开，通过把模型代码、训练数据乃至架构设计公开，让测评过程可全程复现。对比用闭源模型参与测评，也规避了通过微调其他模型来"刷榜"的行为，以更客观、真实地反映模型能力，同时，“太阳底下”的答题也更支持所有人进行任何角度地复现。

再来看这次自变量开源端到端具身智能基础模型WALL-OSS的实测成绩——根据模型测试结果，榜单总分前三依次是pi0.5、WALL-OSS、pi0。其中，WALL-OSS是唯一一个国内开源具身基础模型，且在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个考察模型综合能力的单动作任务中，WALL-OSS排名第一。

实际上，这些成绩也在“意料之中”。

比如对于老生常谈的“灾难性遗忘”和“模型解耦”问题，从单项任务的表现来看，WALL-OSS之前就已经通过模型架构创新，解决了 VLM向VLA迁移的损耗问题；再比如在一系列涉及长序列执行的任务中，其“先离散、后连续、再联合”的三阶段训练范式，让模型可以具备更强的认知和精准物理动作生成能力。

此外，其思维链能力，通过对不同陌生任务、陌生场景、多模态因素的任务适配，外界能更直观地感受到WALL-OSS底层“统一跨层级思维链”独特设计对于产品落地的强加持。

二、为什么具身智能基础模型要走开源路线？

那么，为什么自变量要选择开源路线，或者从行业的角度来看，具身智能基础模型的开源有什么特殊意义？

实际上，早在去年9月，自变量就已经对外进行了基础模型WALL-OSS的开源，在硅谷101播客中，自变量机器人联合创始人&CTO王昊也曾一度阐明了自变量为何坚持开源的初衷。

“我一直都觉得开源是非常重要的事情，开源意味着我们可以站在巨人的肩膀上继续前进。一般的高校、或者一些小型的企业，他们可能没有能力去做基础模型，但是如果能够使用这些基础开源模型，他们就可以去做应用，把它用到各个方向，丰富整个生态，这也是一个非常重要的事情。”

值得一提的是，自变量基于WALL-OSS的开源是更为彻底的开源。

这次的开源模块中，其对业界开放了详细的模块设计文档、参数说明、环境搭建脚本，核心代码注释覆盖率超80%；在环境模块，WALL-OSS明确标注所有依赖库的精确版本，提供Docker镜像一键部署；在工程化模块，感知、决策、动作模块全部对外开放，内置错误处理和日志系统，支持调试时可快速定位问题。

此外，WALL-OSS也更开放了通用适配接口，支持全部主流机器人本体（夹爪、灵巧手），只需修改少量参数即可适配不同场景。

从开发者视角来看，这种足够彻底的开源能够极大降低开发者和从业者的工程成本和研发周期，而从行业视角来看，这种优质开源模型的彻底开源也更可以全面降低整个具身智能行业的创新成本，避免不同厂商和开发者“重复造轮子”的现象发生，推动整个行业生态更加繁荣。

而这种繁荣一方面可以更一步推动具身智能 “群体智慧”的涌现，让具身智能基座模型贴近物理世界的速度更快；同时另一方面，也更可以加速“体”和“脑”基于生产力层面的结合，适配更多线下真实场景，推动具身智能行业“旺盛需求—有效供给”的产业迭代发展。

用开源生态评价开源模型，以开源模型驱动行业生态繁荣，基于繁荣生态构建更进一步的产业发展飞轮。唯有如此，具身智能才能从碎片化走向群体智慧，从实验室走向真实物理的千行百业。

原文标题 : 自变量开源模型评测超pi0背后：具身智能的“涌现”时刻要来了吗？

来源：自变量开源模型评测超pi0背后：具身智能的“涌现”时刻要来了吗？ | OFweek机器人网

通知

尊敬的用户

user

开源模型评测超越GPT-4 具身智能迎来突破时刻

相关图文

黄仁勋CES再谈物理AI 石智航已率先实现具身智能Scaling Law

自主水下机器人探秘深海，精准开辟最优航路

CES 2026：东方机器人挑战西海岸

中国机器人首推具身Agentic OS，实现边思考边干活

千寻智能推动具身智能发展，实现产线落地与模型全球领先

CES2026灵巧手展品最全盘点逾六成来自中国

热门资讯

中国脑机接口技术取得重大突破，截瘫患者用意念打游戏并操控小米家电

创业板指探底回升涨超1% 两市半日成交额突破2.3万亿商航天与AI应用持续爆发

世界第一全能冠军咖啡机器人登陆罗马尼亚首都

2025年科技基金表现强势净值翻倍产品涌现 AI成2026年布局重点

年薪千万难觅人才！具身智能领域人才缺口与2027年关键机遇期

英国警示马斯克旗下AI公司允许生成深度伪造色情内容多国官员谴责并呼吁调查

快讯

高德将发布首款四足机器人

网易云音乐就广告出现诡异画面致歉该广告内容为男士脖子扭向背后但身体完全不动

AI颠覆、科技革命搅动视听产业，这场国家级盛会将透露哪些重要信号？

2025年老牌机器人企业扎根刚需场景发展

亚钾国际澄清：在老挝被限产及股东资产注入传闻不实

继宇树科技之后，顶级私募机构再度出手领投PNDbotics

全球首个3C精密产线验证：智元精灵G2连续作业8小时，成功率超99.5%

乐聚牵头国家级开源社区落地具身智能数据荒问题有望得到解决

LPDDR6首发权争夺战：四巨头竞逐下一代内存王座

奥尔特曼住宅遇袭的警示：AI精英叙事须及时纠偏

推荐专栏

爱力方

机器人大讲堂

下一篇