作者:彭堃方 编辑:吕鑫燚 出品:具身研习社
具身智能的终局,必然指向“干活”。
这并非单一企业的片面判断,而是产业确定性的方向。近日,波士顿动力副总裁Zack Jackowski 在公开访谈中系统性阐述了企业战略转型逻辑,从早年凭借 “病毒式跑酷传播”,转向构建适配场景的大小脑能力。
不可否认,跑酷、跳舞等高难度运控调试作为产业培育期的注意力锚点,具备初期市场启蒙价值,但绝非产业演进的终极归宿。作为在运控领域闻名遐迩的“古早网红”,波士顿动力的转舵向全行业释放出明确信号:干活能力的构建,既是具身智能的未来方向,更是产业进阶的必答题。
放眼全球产业实践,头部企业的布局已形成协同印证:特斯拉Optimus在自家超级工厂承担电池模组分拣与装配作业,Figure机器人进驻宝马工厂开展汽车零部件装配实训,均以干活为核心锚点推进技术迭代。
国内产业脉络同样遵循这一逻辑,北京人形机器人凭借具身天工Ultra以全场唯一自主奔跑的方式斩获人形机器人半程马拉松赛事冠军,通过极限场景验证核心运控能力后,便迅速回归干活;在人形机器人运动会中,不仅成为了首个全自主的人形机器人的百米“飞人”,更是在物料整理、搬运、酒店迎宾等场景赛事中斩获1金3银1铜的佳绩,持续夯实场景适配基础。
更关键的是,北京人形始终以“全自主、更好用”的干活场景为导向,贯穿技术落地全过程,在3D场景(Dangerous、Dirty、Dull)中,通过真实工况下的作业实践验证模型有效性,持续挖掘新质生产力价值。

从全球头部企业的战略布局与实践路径不难看出,具身智能的终极发展导向,必然指向干活能力的成熟落地。
当行业热议人形机器人迈入万亿级市场爆发窗口期时,其核心破局点在于干活能力的实质性突破。唯有当人形机器人能在真实产业场景中创造可量化的商业价值与产业价值,才能推动产业从实验室原型阶段迈向规模化商业落地阶段,真正激活万亿市场的增长潜力。

北京人形围绕具身智能机器人“能干活,会干活”的核心诉求,破解了“单一场景落地”的瓶颈。其跨场景适配的背后,藏着技术路线的底层创新。
之所以能成为“多面手”,关键在于北京人形构建的具身“大小脑”:以WoW(我悟)世界模型与Pelican-VL(天鹕)多模态大模型构成的智能大脑为核心;搭配以XR-1模型为核心的具身操作“小脑”,通过大小脑协同,为具身天工、天轶等具身智能机器人赋予感知-决策-执行的完整能力闭环。
其中,“大脑”是支撑机器人自主决策的核心。WoW作为具身世界模型,能构建交互式虚拟世界,让机器人在虚拟世界中实现“预测判断和自我调试逻辑错误”,提前规避真实操作中的失误;而Pelican-VL视觉语言模型则负责打通“看见”与“理解”的链路,使机器人能精准识别变形料箱、反光零部件等复杂目标,为操作提供决策依据。
具身大脑让机器人知道该怎么做后,如何精准执行并输出流畅动作则需具身小脑来完成。
XR-1是北京人形为机器人打造的具身“小脑”的核心,是目前国内首个且唯一一个通过具身智能国标测试的具身VLA大模型,能在多构型本体上精准完成多种场景下的多种任务。
具体来看,XR-1的核心优势在于实现了“三跨”特性:
跨数据源学习,不仅能利用机器人真机和仿真数据进行训练,甚至通过人类第一视角的视频进行学习,解决各种应用场景数据稀缺的痛点;
跨模态对齐,通过独创的统一视觉-运动编码(UVMC)技术,用一套共享“词典”翻译视觉信息与动作指令,让机器人形成某种本能反应;
跨本体控制,让算法能适配双足、轮式等不同构型、不同品牌的机器人。
从底层数据到指令再到适配,XR-1“三跨”解决了具身智能“由里到外”的痛点,当同一套模型能驱动不同机器人完成不同任务时,场景拓展成本将大幅降低。
XR-1的灵活性也源于其首创的结合数据的三段式训练范式“先练内功再练招式”:
第一阶段是依托海量自有多本体数据,结合互联网人类操作视频,不学习具体任务,只学习如何将复杂的视觉画面与动作轨迹压缩成一套统一的视觉-运动代码字典。
第二阶段是再用大规模跨机器人数据强化训练,让它理解物理世界的基本规律和通用操作规范。经过这一步,XR-1不再依赖具体场景的预设,而是能根据物理规律自主判断动作。
第三阶段针对特定场景用少量专项数据微调,让其在具体岗位上更“专业”。

简单来说就是模型兼具通用和专用,且不只是“照葫芦画瓢式”输出动作,而是真正理解把一件事做对、干好活是意味着什么。
这不再是一个“有多少智能就有多少人工”的落地悖论,而是实打实的大规模部署。这种训练范式带来的领先性,在与行业顶尖模型的对比中尤为明显。
北京人形将XR-1与当前世界先进的具身VLA模型(如PI0.5)在120项真实世界任务中测试,结果显示XR-1的任务成功率全面领先,在部分任务上,成功率更是达到其他模型的2倍。此外,XR-1在具身天工2.0、UR、Franka等多种多构型的机器人本体上,都表现出了高成功率和强鲁棒性。
XR-1的灵活性和泛化性离不开优质数据滋养,其数据养分为RoboMIND与ArtVIP。
其中,RoboMIND是一个大规模多构型机器人数据集与评测基准,旨在解决机器人训练数据采集成本高昂、高质量数据稀缺的行业痛点。其最初版本于24年12月发布,目前累计下载量已超15万。现在RoboMIND 2.0版本已升级至包含30万条双臂操作轨迹,覆盖具身天工等6种机器人本体,并搭建了10余个场景、涵盖739项任务,不仅为模型训练提供了海量、多样化的“实战经验”,其新增的1.2+万条带触觉操作数据,更是为训练更智能、更协作的机器人模型提供了关键养料。

当然,RoboMIND2.0本身还有一创举值得一提,即RoboMIND2.0打通了虚实数据壁垒,将海量仿真数据与真机经验深度熔铸,使得模型性能大幅提升。据了解,在XR-1模型在数据调配中发现,当真机数据与仿真数据比例从1:0提升至1:5后,任务成功率平均提升超25%。
而RoboMIND中的仿真数据并非是习以为常的“抓取&放置”这类常规操作,它还包含了ArtVIP这类高保真,且针对复杂铰接物体的操作数据。
ArtVIP是北京人形与北京市建筑设计研究院联合打造的高保真铰接物体仿真资产库,专注于攻克如转椅、抽屉、冰箱等复杂灵巧操作难题。

通过极致还原物体的视觉外观与物理特性,ArtVIP极大地缩小了Sim2Real的鸿沟,让XR-1模型能在投入物理世界前,于虚拟空间中安全、高效地“预演”万千复杂任务,锤炼出应对真实世界不确定性的强大泛化能力。目前其高保真数字孪生铰接物品数量正持续增加至超1000个,是目前已开源的全球最精细的复杂铰接物体仿真库。
至此,一套“由ArtVIP高保真数据搭起可扩展的数据基础,RoboMIND2.0熔铸仿真数据与真机数据,XR-1高效学习”的具身智能系统已经完备。在数据集的优质养分和灵活的具身“小脑”支撑下,具身天工2.0已经能做出点新东西。例如,在昏暗的酒吧环境中,无惧光照泛化,精准理解测试员的自然语言表达,再识别桌面不同的酒,拿起杯子倒酒后稳稳递给测试员手中,整个过程一气呵成,头部和身体轨迹互相配合,有了点人类的“呼吸感”。

如今,两大数据资源与首个国标具身VLA模型XR-1都已同步开源,北京人形用已被验证好用的应用落地“工具箱”,为产业注入了新动力。

相较于在领奖台上摘得赛事桂冠、刷新纪录的高光时刻,北京人形在多元场景中干活显得略微有些低调,或说更加务实。
这里还有个从产业需求中衍生出的小插曲,北京人形在运动会取得的胜利,并非是单纯的比赛,而是企业特意布置的考题。
作为世界经济论坛认证的“灯塔工厂”,福田康明斯一直寻求适配其复杂生产场景的人形机器人生产力,但始终未找到和其核心需求匹配的人形机器人生产力。为此,其在2025世界机器人大会场景挑战赛中,针对性设置了料箱规整、物料分类等贴合工厂日常作业的实操难题,这些正是真实工作场景中高频出现且亟待解决的痛点。
经过多轮技术方案的深度比对,北京人形凭借对产业场景需求的深度解构与技术方案的精准适配,最终成为福田康明斯的合作方。
如今在福田康明斯昌平工厂,北京人形的具身天工2.0与天轶2.0在福田康明斯进入实训,其中,天轶2.0能高效率完成物料转运作业,面对使用3-5年的变形周转箱,可通过视觉感知系统实时动态调整抓取角度,实现非结构化环境下的自适应操作。

福田康明斯的实践并非孤例,北京人形的场景落地版图始终聚焦于3D场景。此类场景既是人类劳动力亟待解放的核心领域,也是具身智能实现价值转化的关键阵地,机器人的落地干活并非简单替代,而是针对性解决产业痛点的“靶向性赋能”。
在福田康明斯的生产车间,天轶机器人承接了长期弯腰搬运的重负荷作业,而这类工序曾是导致工人颈椎、腰椎损伤的职业病高发诱因,其高负载承载与升降调节能力从源头降低了劳动伤害风险;
在中国电力科学院的特高压试验场站,具身天工机器人替代人工完成高压设备巡检,将人员触电风险归零,实现高危场景的无人化作业;
在李宁运动科学实验室,天工机器人仅需2-3天即可完成人类需1个月的跑步运动数据采集工作,将研究人员从高强度、重复性的奔跑测试和数据记录工作中解放;
需要强调的是,北京人形落地的多场景绝非简单的业务铺陈。
汽车工厂的物料搬运需要应对动态障碍物,高压巡检依赖高精度环境识别,制药场景则对操作精度有严苛要求。每种任务都对应着截然不同的模型能力与技能组合。

这种落地价值远超炫技类技术演示,北京人形的实践正在印证具身智能的产业化核心逻辑:当机器人脱离表演性动作范畴,切入能够直接降低劳动风险、提升生产效率、保障作业精度的具象化产业场景时,具身智能才真正迈入产业化落地的实质性阶段,其技术价值也随之转化为可量化的产业价值与商业价值。

2025年末,行业正在悄然进入一个新的阶段。故事依然重要,但不再是免检通行证。企业要思考回答一个更现实的问题:能不能干活,值不值钱,能不能规模化复用。在这个节点上,北京人形给出的选择并不张扬,却足够清晰。
从产业视角来看,北京人形提供的XR-1并不是一个单纯为了排行榜而生的模型。相较于“刷新指标”,它更像是一套面向真实产业世界的通用能力基座。
一方面,北京人形通过开放包含“国标适配具身小脑大模型”和“多场景迁移方案”在内的核心能力,XR-1能够赋能产业链上下游的合作伙伴,使其能快速适配严格的行业标准与安全要求,显著缩短了产品研发和部署的周期。
另一方面,XR-1的开源也显著降低了中小企业与高校的研发成本。具身智能的现实困境在于:重复造轮子的人太多,而真正把轮子装到车上的人太少。当底层能力可以复用,有限的工程资源才能被投入到更具体的场景问题中。
从这个角度看,XR-1的价值并不只是北京人形多了一个强大模型,而是整个产业少走了一段弯路。
而且必须承认,在产业早期阶段,顶尖的模型能力与高质量的数据通常被企业视为最核心的竞争壁垒和商业机密,严加守护。然而,北京人形却反其道而行之,不仅开源了XR-1核心算法,更将支撑其强大泛化能力的RoboMIND数据集与ArtVIP仿真资产库一并开放。这种开放的姿态在当下显得尤为珍贵。它意味着北京人形致力于将自身的技术成果转化为整个行业发展的“公共基石”,而非独享的“护城河”。其目标是通过协作创新,共同把机器人应用的“蛋糕”做大,而非在存量市场中内卷。
如果从具身智能的终局反观现在北京人形的做法,它是一种更务实的下注方式。当基础能力被不断复用、检验和修正,真正的差异化才会逐渐从系统工程、场景理解与规模交付中生长出来。具身智能也才能从“被反复讲述的未来”,变成“已经开始运转的现实”。
在宏大叙事与踏实做事之间,北京人形选择了后者。很多时候,产业真正的拐点,并不诞生于最响亮的口号中,而是在这种持续把活儿干下去的选择里,悄然成形。