高质量数据缺乏,已成为具身智能发展的核心瓶颈,也是人形机器人“大脑”进化的最大阻碍。
在冲刺A股“人形机器人第一股”的宇树科技刚刚披露的招股书中,便明确提到了这一问题。
招股书明确提出,宇树科技将搭建大规模真实数据集、开发高性价比遥操系统、建立自动化标注机制,形成“数据飞轮”……这一系列规划,是人形机器人头部企业对“大脑”瓶颈的前瞻布局。
这无疑释放出一个清晰的信号:在行业的聚光灯从“能跑能跳”转向“能干活”之时,数据采集能力反超硬件性能,正在成为新的分水岭。这意味着,谁掌握了规模化、高质量的真机数据生产能力,谁就能在“大脑”进化竞赛中占据先机。
为了实现高质量数据的规模化生产,以乐聚机器人为代表的企业提出了全新的产业级基础设施构想,即人形机器人训练场。

▍训练场,不只是数据采集
训练场作为新型基础设施,绝非简单摆放几台人形机器人的大厂房,而是一个集成了标准化数据采集流程、多模态传感器系统、统一数据格式与接口,以及高效数据标注与管理平台的系统性工程。
打个比方可能会更直观,如果说真机数据是推动产业发展的“石油”,那么训练场就是规模化、系统化生产这一核心燃料的“数据油田”与“精炼厂”。
训练场的核心价值在于从根源上破解行业高质量数据供给不足的行业痛点。目前来看,全球开源的真机数据时长,对于训练大模型所需的亿级参数而言,无异于杯水车薪。而通过规模化、流程化的训练场布局,数据产量有望实现跃升,从源头上解决“没数据可训”的窘境。

其次,训练场降低了全行业的研发门槛和重复投入。它能够像“共享工厂”一样,让各方按需使用数据和算力,将有限的资源聚焦于算法模型的创新上。
同时,训练场加速了具身模型迭代与场景落地的闭环。数据采集、模型训练、算法部署、效果验证可以在同一空间内快速循环,形成闭环,实现“边采边训、即训即用”的敏捷迭代。
最后,训练场能够全面加速人形机器人的产业规模化进程。其训练出的基础模型具备更强的泛化能力,不仅降低了对场景定制化开发的依赖,更削减了单台机器人的投入成本。更重要的是,训练场的兴起必然会伴随数据采集、标注、质检等全流程标准的制定,进而为行业规范的建立提供实践土壤。
可以说,训练场就像是一条为整个机器人与具身智能产业铺设的“高速公路”。
▍乐聚的训练场实践,跑通真机数据全生态链路
在国家战略的宏大叙事下,训练场正逐步从概念落地为现实,从零星试点拓展至网络化布局。乐聚机器人凭借先发优势,已成为国内具身真机数据领域的标杆企业,为行业提供了一个可参照的范本。
全国目前已规划建设14个人形机器人训练场,其中9个由乐聚参与建设,包括北京全国最大规模的训练场,形成了“全国核心+区域覆盖”的基建格局。
这些训练场针对不同场景进行了专业化分工,同时又通过统一的数据平台实现互联互通。依托这一网络,乐聚实现了年产2500万条真机数据的规模化产能,成为行业数据供给的重要支撑力量。
但比产能更值得关注的,是乐聚在数据开放上的选择。其LET数据集开源了超过60000分钟的高质量真机数据,全平台总下载量突破100万次,是行业公认的优质数据资源。在开放原子开源基金会的指导下,乐聚还牵头建设了国家级具身智能开源数据集社区。

这些动作指向一个清晰的逻辑。真机数据的价值,不在于占有,而在于流通。当越来越多的开发者、科研团队和企业能够联手展开研究,整个行业的技术迭代速度将被重新定义。
在标准建设层面,乐聚同样在参与规则的制定。公司参与了国家级标准训练场试点,申请并参与7项行业标准。这一布局能够将乐聚的一线实践经验反向注入标准制定的过程中,有望转化为可推广的行业共识。
从训练场网络布局,到数据集开源,再到标准建设,乐聚构建的是一个覆盖“基建—数据—生态—标准”的全链路真机数据体系。其核心目的,是向全行业开放基础设施能力,推动整个人形机器人产业的协同发展。
▍结语与未来
随着具身智能数据规模化元年序幕的拉开,乐聚的实践让行业认识到,真机数据训练场不仅是数据采集的基地,更是连接技术、企业与场景的枢纽,是推动人形机器人规模化商业化的关键基础设施。
站在具身智能爆发的风口,人形机器人产业的发展已经不再是单一技术的突破,而是全产业链、全基础设施的协同发展。随着真机数据生态的持续构建,人形机器人将真正突破大脑瓶颈,从实验室走向千行百业,迎来真正的规模化商业化爆发。
数据是新的石油,训练场是新的炼油厂。那些率先点亮训练场灯火的人,正在为整个人形机器人行业照亮前行的路。