宇树直接开源“王炸”技术,机器人圈疯了

宇树直接开源“王炸”技术,机器人圈疯了

2025年09月17日 16:15
本文共计1464个字,预计阅读时长5分钟。
来源/微信公众号 责编/爱立方

296

9 月 15 日晚,宇树宣布开源 UnifoLM-WMA-0 架构,这是 UnifoLM 系列下的世界模型-动作架构,专为通用机器人学习而设计。此次开源为跨不同类型机器人本体的通用学习提供了解决方案,有望推进全球具身智能行业的发展。

UnifoLM-WMA-0 架构核心成分在于一个可以理解机器人与环境交互物理规律的世界模型。

据介绍,这个世界模型具备两大核心功能:

仿真引擎,作为交互式仿真器运行,为机器人学习提供合成数据;

策略增强,可与一个动作头进行对接,通过预测未来与物理世界的交互过程,进一步优化决策性能。

在训练策略方面,宇树科技在 Open-X 数据集上对视频生成模型进行了专门微调,使其生成能力适配到机器人的工作场景中。模型通过图像、文本指令生成对应的未来动作视频。微调模型在测试集上的生成效果如下:

298

并且在 UnifoLM-WMA-0 架构下,世界模型并不是单一模式,它支持两种运行模式,分别是决策模式和仿真模式,具备一定的灵活性。

在决策模式下,该模型能够预测有关机器人与环境进行未来物理交互的信息,以协助策略生成动作。这使得机器人在执行任务时能够提前「思考」行动的可能后果,从而做出更优决策。

在仿真模式下,该模型可以根据机器人动作生成高保真环境反馈。相当于给机器人模拟出非常接近于真实的交互环境。

完整系统架构及工作流程如下:

300

而且团队基于 5 个宇树科技开源数据集完成了模型训练。

测试结果显示,该模型作为仿真引擎,可以根据「当前图像」及一定数量的「机器人未来动作」实现交互可控生成。

生成结果与原视频对比如下:

302

更重要的是,该模型具备对长程任务的持续交互生成能力。这意味着它不仅可以处理即时任务,还能规划并执行需要多个步骤完成的复杂任务,大大提升了机器人在现实场景中的实用性。

303

比如在把黑色相机放入包装盒的任务中,根据世界模型对未来动作视频的预测,机器人会先确定相机的放置方向,然后将它放入包装盒凹槽,最后按特定方向盖盖子,这也是模型在环境交互中实时预测能力的体现。

305

在整理物品的任务中,机器人会先分辨桌面散落物品是什么,实际场景中是橡皮和笔,然后机器人会根据盒子里的布局来区分橡皮和笔分别该放在哪个区域里,在橡皮放入小空间、笔放在大空间后,机器人就会把盒子盖上。

310

而在叠放木块的过程中,它可以按照红黄绿的顺序拿木块,然后会在放置木块的时候调整角度以此来保证三个木块对齐。

311

根据宇树官网信息,UnifoLM 此前就已经搭载至宇树 G1 身上。对于本次 UnifoLM-WMA-0 完整开源,宇树科技称未来会持续更新。

对于目前的机器人来说,模型是阻碍它们进入家庭生活中非常大的阻碍。此前王兴兴也曾在外滩大会上表示,目前的机器人硬件完全是够用的,最大的问题还是在模型上面。模型本身的能力不够,没办法很好地把硬件用起来。

而且在 8 月举行的世界机器人大会上,王兴兴还表示,利用预训练的机器人动作视频去控制机器人仿照执行这个路线的方向可能会比 VLA 模型发展得要快,收敛概率更大。

通过这次 UnifoLM-WMA-0 的开源,整个行业的开发者可以基于该架构,进一步优化机器人的控制算法。

并且宇树也有机会在机器人发展的下一个阶段中,占据更加重要的位置。

项目主页:

https://unigen-x.github.io/unifolm-world-model-action.github.io/

开源代码网址:

https://github.com/unitreerobotics/unifolm-world-model-action

作者:兰博

公众号原标题:《宇树直接开源「王炸」技术,机器人圈疯了》

声明:本文来自微信公众号,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯