近日,人形机器人领域的“第一股”优必选,接连在广西和四川两地,斩获了总额超过5.e-..-亿元人民币的数据采集中心项目。
这并非一次孤立的商业中标。
它是一个清晰的信号,标志着一场围绕“具身智能数据”展开的、全新的城市级“军备竞赛”,已然打响。
这些正在各地拔地而起的数据采集与测试中心,正成为人形机器人产品批量应用的“前哨”。它们所产生的海量、真实的物理交互数据,将为机器人的智能化和泛化能力的跃迁,提供最核心的“燃料”。

当数据,被公认为AI时代的“新石油”时,一座座旨在“开采”这种新型资源的“数据工厂”,正在中国各地涌现。
一张正在迅速扩张的地图
据不完全统计,国内目前已有至少9家成规模的人形机器人数据采集和训练中心,投入了实际运营。
-
上海浦东,智元数据集采厂: 2024年9月启用,面积超3000平方米,部署了近百台机器人,日均可采集3万至5万条数据。其内部,复现了家居、餐厅、工业、商超、办公等五大类、超过两百个细分场景。

智元数据集采厂
-
上海,国家地方共建人形机器人创新中心: 2025年1月启用,面积超5000平方米,首期部署了超过100台“异构”人形机器人,旨在解决不同机器人本体之间的数据通用性问题。

异构人形机器人训练场
-
北京石景山,首个人形机器人数据训练中心: 今年3月落地,占地3000平方米,部署了108台不同形态的具身智能设备,集合了产业链上下游十余家企业的先进技术与产品。

北京首个人形机器人数据训练中心
-
天津,帕西尼具身智能超级数据工厂: 6月23日启用,占地近12000平方米,部署了150个标准化的数据采集单元。其创始人称,该工厂每年可生产高质量数据2亿条。

具身智能超级数据工厂
从长三角到京津冀,从物流仓库的真实作业线,到基于柔性电子技术的多模态感知平台,这张地图,正在以惊人的速度扩张。
两种截然不同的“开采”哲学
在这场全球性的“数据淘金热”中,两种截然不同的“开采”哲学,正在浮现。
一种,以特斯拉为代表,信奉“人肉数据采集”的极致路线。
据报道,特斯拉曾拥有一个超过100名员工的数据采集团队。他们的工作,就是在8小时的轮班中,重复数百次奔跑、蹲下、拿杯子、擦桌子等日常动作,并需要制作至少4个小时的可用视频。

其背后的逻辑,是试图用一种近乎“暴力穷举”的方式,为具身大模型,提供尽可能海量、多样的人类行为数据。
另一种,则是以中国各地兴建的“数据工厂”为代表的、更具系统性、工程化的路线。
这些训练中心,通过1:1复现真实的应用场景,让机器人在结构化的环境中,进行高强度的、可重复的、标准化的数据采集。
其背后的逻辑,是试图为特定的垂直行业应用,提供高质量、高相关性的“精炼数据”。
“数据依赖”的B面
然而,当整个行业都在以前所未有的热情,投身于这场“数据军备竞赛”时,一种审慎乃至质疑的声音,也开始出现。
在最终所需的数据量级尚不明确的背景下,人形机器人对“数据无穷尽”的依赖,引发了业内的反思。
一些头部企业,已公开表示对单纯的数据采集市场,持谨慎态度,认为其商业闭环尚不清晰,今天被视为“资产”的数据,在未来可能会因为技术路线的迭代,而迅速贬值为“负债”。
浙江人形机器人创新中心的首席科学家熊蓉,也公开提出了一个更根本的问题:“对于具身智能这一特定领域,延续大模型的技术路径,侧重于建立数据间的关联,这是否是唯一或最有效的方向?”

而就在11月10日,图灵奖得主李飞飞发表长文,详细阐述了“世界模型”(World Models)的潜力。她认为,一个理想的世界模型,将能够从海量的真实视频中,学习到物理世界的规律,再反过来,指导和修正传统的仿真器,帮助其模拟出更逼真、更符合物理直觉的虚拟环境。
——这是一种试图用“模型”来生成“数据”,从而在一定程度上,摆脱对昂贵的真实世界数据采集的无限依赖的思路——
一桩好生意?
无疑,在新的模型范式成熟之前,真实世界的数据,对于当前大模型的迭代和验证,依然至关重要。
对于这些数据采集中心而言,最理想的商业模式,是构建一个以数据驱动的价值闭环:
短期,通过向人形机器人公司提供数据采集服务,实现自我“造血”。
长期,将数据作为一种可交易的战略资产,出售给下游的算法开发者与应用集成商。
然而,这个看似完美的商业闭-环,却不能忽略一个根本性的前提:具身智能,是一个技术和路线都尚未完全收敛的行业。
从商业模式上看,数据采集中心需要采购大量的机器人设备,其本质是重资产运营。
更关键的是,其采集的数据,能否被有效地迁移至客户真正需要的应用场景中,直接关系到其高昂的采集成本,能否被转化为一项真正有价值的数据资产。
数据的价值,关键不仅在于其规模,更在于其是否具备跨场景的迁移能力,以及解决真实世界问题的能力。
这场正在中国大地上如火如荼展开的“数据淘金热”,究竟是不是一桩好生意?
现在下结论,还为时过早。