作者:彭堃方 编辑:吕鑫燚 出品:具身研习社
近日,在全球首个大规模、多任务的,在真实物理环境中由真实机器人执行操作任务的基准测试RoboChallenge榜单新鲜出炉。总得分排行第一为Physcial Intelligence的开源模型pi0.5,第二为自变量的开源模型WALL-OSS,第三为PI的另一开源模型pi0。

这是一份非常有意思的榜单,首先自变量的表现说明具身智能大模型领域的“中美差距“正在像LLM(大语言模型)一样,迅速填平差距。其次,所有评测模型皆为开源模型,从而让所有模型在公众的视野下接受评测,打开了具身智能神秘的黑盒。
可以说RoboChallenge为具身智能大模型找到了一条基准线,也为外界窥探具身智能大脑的真实能力进展打开了窗口。
以自变量为例,去年9月,自变量开源了其具身基础模型WALL-OSS。对于生态来说,自变量选择开源WALL-OSS,本质上是重塑了产业的协同逻辑,它将“重复造轮子”的内耗,转化为“聚沙成塔”的合力。提供了一个高可靠性的通用底座,让全球开发者可以在此基础上贡献长尾场景数据,共同喂养出一个真正理解物理法则的“超级大脑”。
对于产业来说,自变量此举让成百上千的中小机器人企业能够基于WALL-OSS快速生长出垂直领域的应用,从而让机器人用更聪明的大脑引爆整个产业的商业化临界点。
值得注意的是,WALL-OSS开源是更为稀缺的“真开源”,和其他开源为“阉割代码”不同,它开放一整套完整、可复现的具身大模型解决方案,包括预训练模型权重、训练代码、数据集接口,甚至附上详细部署文档。让开发者能更好微调或者复现能力。
可以说,在具身智能这片长坡厚雪的赛道上,开源不仅是在跑自己的马拉松,更是在为整个行业铲雪修路。因为只有当“大脑”不再成为稀缺品时,通用机器人的黄金时代才会真正到来。

RoboChallenge是由Dexmal原力灵机与Hugging Face共同发起的全球首个大规模、多任务的真机基准测试平台。它旨在为VLA在视觉-语言-动作模型在机器人上的应用提供一个开放、公正、可复现的评估标准,以解决机器人行业长期缺乏统一评测基准的痛点,推动具身智能从实验室研究走向现实世界应用。
其核心测试集Table30作为RoboChallenge平台首发的桌面操作基准测试集,构建了一个涵盖30项真实生活情境的“全科考场”。从擦桌子、折叠洗碗布等基础家务,到插花、插网线等精细操作,再到打开水龙头、制作三明治等复杂交互,细致全面的考察了模型的智能边界。
虽然RoboChallenge一定程度上打破了具身模型的“自唱自说”,但其并不是完全的“一锤定音”。毕竟,具身模型与大语言模型的测评存在本质区别,具身模型采用提前公开任务的“类开卷”考试范式,核心评价指标为视频化的实际动作执行效果,和大语言模型“裸考”有着本质区别。
在此背景下,具身模型测评的另一条信号在于,公开代码的开源模型更具技术真实性与产业价值,不仅支持全流程复现,还能赋能行业生态。
以自变量的WALL-OSS表现为例,在put_opener_in_drawer(开瓶器入抽屉)、hang_toothbrush_cup(挂牙刷杯)、move_objects_into_box(移动目标物入箱)等高难度任务上,WALL-OSS单项得分位列前茅,甚至超过总分第一的pi0.5,展现了模型顶尖的执行效率和稳定性。

在“开瓶器入抽屉”的实战中,模型需要从咖啡机、盆栽等干扰项中精准识别目标,然后依循执行逻辑,率先完成精确的“捏拉”动作打开抽屉,最后凭借对空间位置的深入理解,拿放开瓶器,实现闭环操作。
透过上述任务执行可见,WALL-OSS在复杂长指令任务中的稳定发挥,意味着其已经进化为一个具备出色逻辑推理与空间感知能力的“聪明大脑”。换句话说,WALL-OSS的出色表现,完全基于其对物理世界的本质理解与多模态指令的深度对齐,而非针对已知考题进行的特殊训练。
此外,WALL-OSS作为一款完全开源的模型,代码逻辑与模型参数均公开透明,其测评表现是真实且可复验的。(开发者最快一周就能在自有机器人上完成适配)
可见,WALL-OSS的表现,不仅仅是一个具身大模型的成绩,而是其开源后能实打实赋能开发者的真实底气。

正如开文所述,RoboChallenge榜单前七名均为开源模型,其参赛主体分别为Pi0.5Pi0WALL-OSSpi05_generalistCogACTpi0_generalistopenvla-oft。(主要模型为Pi0.5Pi0WALL-OSSCogACTopenvla)。
其中,Pi0、pi0.5背后的公司Physical Intelligence主要团队成员来自伯克利、斯坦福等高校和谷歌专家等。由前Google DeepMind机器人科学家,斯坦福大学兼职教授Karol Hausman担任CEO。联合创始人Sergey Levine为加州大学伯克利分校(UC Berkeley)副教授,深度强化学习领域的奠基人之一,致力于通用机器人模型开发。
WALL-OSS背后的自变量机器人,创始人王潜为南加州大学博士学位,曾于美国顶级机器人实验室从事机器人学习与人机交互研究,是全球最早在神经网络中提出Attention机制的研究者之一,其成果与谷歌同期发表于国际会议。CTO王昊为北京大学计算物理博士,曾任职于粤港澳大湾区数字经济研究院(IDEA研究院),主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”,累计下载量超百万次。
CogACT的研究团队来自清华大学、微软亚研院等机构;OpenVLA模型由斯坦福大学、加州大学伯克利分校、谷歌DeepMind等机构的研究团队联合开发。
开源模型齐聚榜单为具身大模型的未来发展释放了一个清晰的信号,开源模型更具有含金量,也更能赋能行业成长。这一点从不同主体基于同一个开源模型调整参赛就能看出。
时至今日,没有人会再争议“开源”和“闭源”孰优孰劣,但一定会有人好奇:开源能带来什么?
回答这个问题,可以从AI大模型找到答案。
开源不是因为“卷不过”,而是为了“赢下未来”。DeepSeek、Qwen的成功不在于它是否永远霸榜,而在于它把大模型的价格打了下来,把技术门槛拆了下来,让万千开发者能用上“握在自己手里”的模型。 如果你还记得,你会想起年初各大国企接入DeepSeek,到了年末,甚至连美国企业反倒用起了中国的AI模型。
自变量开源WALL-OSS的意义如出一辙: 国内无数本体机器人公司和中小具身厂商,原本都在各自为战、重复造轮子。
此前在《硅谷101》博客中,谈及开源的初心时,自变量曾表示主要出于两点考虑。其一,是技术成熟度,其二是行业需要的程度。从技术成熟度来讲,类似于VLA的结构,经过了很长时间的论证,大家在训练方法上有很多探索,相当于有一定的应用上的共识以及经验。所以从技术成熟来讲,此时具有这样结构的模型对产业来讲是个很需要的事情。
从需要程度来看,国内产业里(开源时间为2025年9月)没有在一个框架下的国产自研统一模型,但行业迫切需要的强大的开放基座模型,来助推行业成长。
自变量把“大脑”开源,相当于为全行业提供了一个高性能的通用底座。只有底座开源,国内的具身智能应用才会像当初的AI应用一样“百花齐放”,加速中国具身智能“聚沙成塔”的过程。
毕竟,真正的核心竞争力,不在于实验室中的参数高低,而在于真实世界中的作业能力;真正的产业价值,不在于技术的孤芳自赏,而在于通过开源与协同,推动整个行业的升级与进步。
对于产业来说,具身智能是一场马拉松,是“长坡厚雪”、“众人拾柴”的赛道。自变量机器人的开源,本质上是一种利他主义的竞争策略。而且放眼整个具身智能的竞争,最终不是比谁的实验室模型更漂亮,而是比谁能最快让千万台机器人走入现实。