开源模型评测超越GPT-4 具身智能迎来突破时刻

2026年01月12日 18:44
本文共计2071个字,预计阅读时长7分钟。
来源/OFweek机器人网 责编/爱力方

 用开源生态评价开源模型,以开源模型驱动行业生态繁荣,基于繁荣生态构建更进一步的产业发展飞轮。

作者|皮爷

出品|产业家

过去一周,具身智能赛道,来了一则新消息。

在第三方测评平台RoboChallenge的榜单上,自变量开源端到端具身智能基础模型WALL-OSS以54.69分的成绩超越pi0,总分排名第二;此外,在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个单动作任务中排名第一。

 

这个榜单验证了国产模型在复杂物理交互场景下的国际竞争力,也给具身智能产业人士带来另外一个层面的期待:即在产业级开源模型的推动下,具身智能产业能否迎来新的“百花齐放”?

在过去的几年时间里,具身智能的创新进步更多呈点状分布,并没有出现和通用场景相似的从“基础模型—AIGC产品/Agent智能体”百花齐放的涌现时刻。

这次登榜的自变量开源WALL-OSS模型,让大家看到一个新答案。

一、排名第二:

具身智能再迎开源国产新底座

具身智能模型测评和大语言模型测评不同。

前者测评更多为“闭卷答题”,以静态数据输出与文本、图像指标为主;而具身模型的测评更加侧重“感知-决策-执行”的物理闭环,在测评时需要提前公开任务,核心验证对象为视频动作序列和任务成功率,类似于“开卷考试+实操考核”。

因此,相较于闭源模型“黑盒黑箱式”的打榜方式,用公开代码的开源具身智能模型参与测评,才是最货真价实,也是最能反应真实模型水平的评测方式。

这等同于把学霸的实时解题思路进行全面公开,通过把模型代码、训练数据乃至架构设计公开,让测评过程可全程复现。对比用闭源模型参与测评,也规避了通过微调其他模型来"刷榜"的行为,以更客观、真实地反映模型能力,同时,“太阳底下”的答题也更支持所有人进行任何角度地复现。

再来看这次自变量开源端到端具身智能基础模型WALL-OSS的实测成绩——根据模型测试结果,榜单总分前三依次是pi0.5、WALL-OSS、pi0。其中,WALL-OSS是唯一一个国内开源具身基础模型,且在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个考察模型综合能力的单动作任务中,WALL-OSS排名第一。

 

实际上,这些成绩也在“意料之中”。 

比如对于老生常谈的“灾难性遗忘”和“模型解耦”问题,从单项任务的表现来看,WALL-OSS之前就已经通过模型架构创新,解决了 VLM向VLA迁移的损耗问题;再比如在一系列涉及长序列执行的任务中,其“先离散、后连续、再联合”的三阶段训练范式,让模型可以具备更强的认知和精准物理动作生成能力。

此外,其思维链能力,通过对不同陌生任务、陌生场景、多模态因素的任务适配,外界能更直观地感受到WALL-OSS底层“统一跨层级思维链”独特设计对于产品落地的强加持。

二、为什么具身智能基础模型要走开源路线?

那么,为什么自变量要选择开源路线,或者从行业的角度来看,具身智能基础模型的开源有什么特殊意义?

实际上,早在去年9月,自变量就已经对外进行了基础模型WALL-OSS的开源,在硅谷101播客中,自变量机器人联合创始人&CTO王昊也曾一度阐明了自变量为何坚持开源的初衷。

“我一直都觉得开源是非常重要的事情,开源意味着我们可以站在巨人的肩膀上继续前进。一般的高校、或者一些小型的企业,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是一个非常重要的事情。”

值得一提的是,自变量基于WALL-OSS的开源是更为彻底的开源。

这次的开源模块中,其对业界开放了详细的模块设计文档、参数说明、环境搭建脚本,核心代码注释覆盖率超80%;在环境模块,WALL-OSS明确标注所有依赖库的精确版本,提供Docker镜像一键部署;在工程化模块,感知、决策、动作模块全部对外开放,内置错误处理和日志系统,支持调试时可快速定位问题。

此外,WALL-OSS也更开放了通用适配接口,支持全部主流机器人本体(夹爪、灵巧手),只需修改少量参数即可适配不同场景。

从开发者视角来看,这种足够彻底的开源能够极大降低开发者和从业者的工程成本和研发周期,而从行业视角来看,这种优质开源模型的彻底开源也更可以全面降低整个具身智能行业的创新成本,避免不同厂商和开发者“重复造轮子”的现象发生,推动整个行业生态更加繁荣。

而这种繁荣一方面可以更一步推动具身智能 “群体智慧”的涌现,让具身智能基座模型贴近物理世界的速度更快;同时另一方面,也更可以加速“体”和“脑”基于生产力层面的结合,适配更多线下真实场景,推动具身智能行业“旺盛需求—有效供给”的产业迭代发展。

用开源生态评价开源模型,以开源模型驱动行业生态繁荣,基于繁荣生态构建更进一步的产业发展飞轮。唯有如此,具身智能才能从碎片化走向群体智慧,从实验室走向真实物理的千行百业。

       原文标题 : 自变量开源模型评测超pi0背后:具身智能的“涌现”时刻要来了吗?

来源:自变量开源模型评测超pi0背后:具身智能的“涌现”时刻要来了吗? | OFweek机器人网

声明:本文来自OFweek机器人网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯