编者按:具身智能有三座大山需要跨越:模型、数据、量产。
模型决定能力上限,量产决定能否走向现实,而数据连接着二者,是目前最难补齐的一环。
无论模型多先进、硬件多复杂,具身智能能否真正学会如何在真实世界中行动,最终都取决于是否拥有高质量、可规模、可复用的数据作为底层燃料。
数据从何而来、如何生成、如何使用,正在深刻影响技术路线的选择,也直接塑造着企业的商业化节奏,成为当下竞争中最关键的变量。
基于此,星河频率特别策划「具身智能数据专题」,系统拆解遥操作、仿真、人类视频、UMI 等核心数据采集技术路径,梳理代表性玩家的技术取舍与商业逻辑,观察数据厂商如何参与构建这一轮具身智能的底层基础设施。
我们将持续跟踪这一核心领域的演进,剖析数据如何驱动智能进化,并探索行业突破瓶颈、构建协同生态的可能路径。
作者 | 向欣
春晚过后,具身智能行业迎来了一波融资高峰。
智平方、千寻智能先后宣布融资超 10 亿与近 20 亿,估值均突破百亿;自变量机器人最近也完成数亿元融资,成为今年已披露融资中估值最高的具身公司。
舞台上机器人的密集亮相点燃了资本市场,也改变了大众的关注焦点。从机器人真厉害,变成了它什么时候能进我家?
但现实是,具身机器人仍无法进入真实生活场景。
问题的关键,已经不在「身体」。
春晚已经证明机器人的瞬时爆发、抗冲击等硬件能力基本成熟。但机器人真正的瓶颈在「大脑」。
尽管模型层面不断进步,但受限于数据规模与多样性,泛化能力仍不足。
未来三年,真正拉开差距的,将是能持续、规模化产出高质量数据的能力。
目前,具身智能数据领域已分化出四条主流技术路线,并由此形成了被称为「具身数据四小龙」的市场格局:遥操作采集:智元机器人;仿真合成:银河通用;人类操作视频:它石智航;UMI:鹿明机器人。
需要说明的是,虽然划分为了四条路线,但玩家们并不会只押注一个方案。
真实实践中,多数公司都会组合使用多种数据来源,只是在资源配置与技术重心上有所侧重,才逐渐形成了各自更具代表性的路径。
一场围绕具身数据的卡位战,也就此拉开序幕。
质量派:遥操作,用成本换取真实度
在所有具身智能数据采集路径中,通过遥操作获得的数据,被普遍认为是最高质量的一类。
在整套数据体系中,遥操作是打基础的高质量样本来源,缺陷则是成本高,很难单独支撑大规模数据供给。
这条路线可以视为是具身智能数据生产的「重工业模式」,拼的是资金耐力与工程组织能力。
所谓遥操作,是指由人类远程操控机器人本体完成具体任务。常见方式包括 VR 设备、动作捕捉系统、主从机械臂以及外骨骼等。
特斯拉遥操作数据采集与仿真或视频不同,遥操作发生在真实物理环境中,人类动作可以被完整映射到机器人执行层面,使机器人直接经历现实世界的力学约束与环境干扰。
在这一过程中,遥操作设备不仅记录下关节轨迹、力反馈、触觉信息和视觉画面,还同步保留了人类在复杂、不确定环境中的决策过程,包括如何判断、取舍并不断修正动作。
这等同于人类在现场「手把手」教机器人做事,精度高、信息密度大,也最接近真实可用能力。
正因如此,不少企业选择以遥操作作为早期真机数据的核心来源,智元机器人是其中最具代表性的一家公司。
一方面,智元是国内较早系统性投入遥操作数据采集的企业,并率先将这一过程工业化。
2024 年 9 月,智元在上海启用了一座面积超过 4000 平方米的数据采集工厂,复刻了家居、餐饮、工业、商超和办公五类核心场景,配置 3000 多种真实物品,并支持上百台机器人并行作业。
基于这一体系,智元在 2024 年 12 月开源了百万级真机数据集 AgiBot World,成为当时全球规模最大的公开遥操作数据集之一。
AgiBot World 由 100 台机器人执行、累计超过 100 万条示范轨迹构成,总时长约 595 小时,覆盖 80 余种家庭与工业操作任务。
据了解,智元的数据工厂目前日均可产出 3 万至 5 万条高质量数据,在规模与效率上均处于行业前列。
另一方面,遥操作还有着技术门槛,需要满足高精度、低延迟的要求。
智元的遥操作技术也经过公开验证。在智元精力 G2 的发布会上,北京的技术人员控制上海发布会现场的机器人精准射中飘动的气球,操作延迟低于 10ms,轨迹复现精度达 99%。
从数据采集到使用数据训练模型的过程中,还需要经历数据上传、清洗、标注等一系列流程。智元机器人很早就搭建起了一套数据处理的系统。
2024 年 8 月,其发布了具身智能数据系统 AIDEA,覆盖从数据采集到模型部署、再到数据回传的全链路;2025 年 4 月推出的 Genie Studio,则进一步打通了「数据采集—模型训练—仿真评测—模型推理」的一体化流程,单机单日产能高达 1000 条,数据采集与使用效率显著提升。
智元机器人的雄厚资本与量产经验,也使得其在遥操作路线上,具备长线作战的能力。
智元自 2023 年 2 月成立以来,以平均每 3 个月一轮的融资节奏快速崛起,目前已完成 11 轮融资,估值已攀升至 150 亿元人民币,2025 年出货量达 5168 台。
尽管遥操作数据质量极高,但其代价同样明显,体现为「高成本、低泛化」。
首先,成本极其高昂。
建立一个数据工厂,涉及多项巨额开支:硬件成本:高自由度机器人本体(单价普遍超 50 万元)、精密动捕设备(单套数十万元)是基础投入;场景与人力成本:搭建逼真的物理场景需要场地、物料;操作和维护设备需要雇佣专业团队,培训周期长;时间与效率成本:数据采集速度受限于人工操作,难以爆发式增长。
仅仅是建设一个规模化数据工厂,都需要数千万元乃至更高的前期投入,运营维护也是一笔不菲的支出。
此外,遥操作数据与具体机器人本体高度绑定。
由于动作映射、结构参数和控制接口存在差异,这类数据往往难以直接迁移到其他本体上使用,泛化能力受限。
综合来看,遥操作是一条用高昂代价换取最高质量数据的路径,能够为企业训练模型提供最扎实的地基。
但由于是一种重资产、重投入、重运营的路径,也对企业的资金实力、工程化能力以及长期投入的耐力提出了极高要求。
这些现实约束,推动行业不断寻找更低成本、更高效率的替代方案。
规模派:仿真&视频,数据海量,存在迁移误差
仿真数据与人类视频数据,正在成为被寄予厚望的技术路径。
两条路线的共同特点是,不依赖大量真实机器人,成本更低、效率更高,规模极大。它们共同的缺陷则是不够真实。
由于它们都不是机器人本体直接产生的数据,都存在从训练环境到真实执行环境的迁移误差,即「Sim-to-Real Gap」。
仿真数据,指的是通过物理仿真引擎,在虚拟环境中生成机器人与环境交互的数据。
仿真数据的优势在于:单条数据成本更低、可规模化、环境高度可控、场景几乎无限扩展。
在仿真环境中,机器人不需要真实硬件,也无需人工参与,只受算力和参数设定约束。
虚拟机器人可以 7×24 小时在仿真环境中训练,场景参数、物理条件和任务难度都能被精确控制,非常适合进行大规模训练与算法验证。银河通用是仿真合成数据路线的坚定支持者。
目前银河通用约 90% 的训练数据来自仿真合成。
团队在这一方向持续投入多年,自研了一套完整的仿真数据生成管线,能够在一周内生成 10 亿级别的数据,数据生成效率是传统真机采集的上千倍,单条数据成本仅为真实采集的 1/100。
基于这套数据生成方案,银河通用联合北京智源人工智能研究院等共同发布了全球首个端到端具身抓取基础大模型 GraspVLA,其预训练完全基于合成大数据,展现了七大卓越的泛化能力,包括高度、平面位置、物体类别、光照、干扰物、背景的泛化以及闭环能力。
银河通用创始人王鹤认为,在人形机器人仍停留在千台级出货规模的现实下,真实数据的产出能力与自动驾驶动辄百万级车队所产生的数据量,存在数量级差距。
仅靠真机数据,难以支撑具身大模型所需的训练规模,仿真因此成为补齐数据缺口的现实选择。
但仿真数据也有局限性。
虚拟环境的状态过于理想化,物理参数与感知反馈高度稳定;而现实世界充满传感器延迟、光照变化、硬件误差等各类干扰。
模型在仿真中学到的往往是最优策略,但迁移到实体机器人时性能容易衰减。
同时,机器人本体的虚拟模型与实际硬件在关节精度、动力响应等方面的差异,也导致动作轨迹难以精确复现。
Agility Robotics 使用仿真数据训练机器人如果要追求更高的真实度,让仿真环境无限逼近物理世界,其成本优势又会开始动摇。
高精度物理建模、复杂场景重建和参数标定,对高端人才、算力资源与工程投入的要求不断上升,成本甚至可能超过直接进行真实采集。
仿真数据的种种问题,归根结底都源于虚拟环境的理想化,与真实世界复杂性之间难以消除的差距。
在多数人眼中,仿真数据更适合作为探索与辅助工具,而难以独立支撑机器人在真实场景中的性能上限。
于是,另一类更贴近现实的数据信息开始受到重视——人类视频数据。
相比仿真,人类视频更加贴近真实世界,保留了真实场景中的行为逻辑和任务流程。
人类视频按照来源可分为两类:一是场景极其丰富但缺乏标注的互联网海量视频;二是针对特定任务录制的高质量示范视频。
人类操作视频的缺陷在于,视频内信息不够完整,单纯的视觉信息不足以支撑精细操作。
如何在保持规模优势的同时,引入更完整的动作与物理交互信息,成为这一路线能否真正落地的关键。
特斯拉、它石智航、逐际动力、千寻智能、Skild AI 等公司均在持续投入。
其中,它石智航给出了更加工程化、体系化的解法。它石提出了 Human-Centric 数据采集范式,核心思路是让真实劳动者佩戴一套简易的数据采集设备,在真实场景中自然完成工作。
它石自研了一套数据采集设备:SenseHub 数采套件,由轻便的采集手套(TARS Glove,包含五指、两指两个版本)与一个全景相机(TARS Vision)组成。
设备同步记录视觉、动作与力触觉信息,自动化数据引擎 TARS Datacore 会全程对数据进行自动标注,将数据拆解为机器人可理解的操作单元与任务逻辑。
这种方式实现了两项突破:首先,数据源自真实的生产生活场景,而非人为搭建的实验室环境;其次,成本结构大幅优化,采集成本降至遥操作的 1/100。
基于这一系列数据采集系统,它石智航仅用几个月,就收集了超过 10 万条以上的真实人类操作视频,并将其整理开源为 WIYH 数据集,并部分开源。
已开源的 WIYH 数据集包含 40 余种任务类型、100 多种人类技能,覆盖了含 520 余种真实物品,真实还原商超、酒店、餐饮、工业、办公、家居等多行业的 10 种核心场景全链路任务。
依托该数据集训练的 AWE2.0 模型,已能使机器人完成刺绣等高难度精细动作。
尽管人类视频极大扩展了数据规模,但它始终存在几项难以回避的限制。
一是纯视觉信息难以还原完整物理交互数据。互联网人类视频虽然规模大且丰富,但缺失力觉、触感、关节状态等关键控制变量,使模型对精细操作的理解存在先天不足。
二是数据噪声。它石智航式的示范视频虽然真实,但由于场景非结构化,存在大量的遮挡与冗余信息。这要求后端 AI 必须具备极强的感知与清洗能力,才能从杂乱的人类操作中提取出有效样本。
总体而言,仿真与人类视频的核心价值在于「规模」,但在物理精度与真实执行一致性上,仍需与高价值的真机数据互为补充。
平衡派:UMI 范式,在成本与质量之间求解
如果遥操作是重工业,仿真是自动化生产线,那么 UMI 更像是分布式采集网络。它是行业找到的一种折中方案,既不依赖昂贵机器人本体,又能采集到足够真实的操作数据,还具备规模化潜力。
UMI 它的特点是低成本、便携、效率高、可规模化、并且与硬件解耦,可跨本体迁移。
目前其工程化优势已经显现,但真实落地效果仍需要更长周期、更广泛的实践支撑。
UMI 全称是 Universal Manipulation Interface,即通用操作接口,是 2024 年斯坦福大学、哥伦比亚大学与丰田研究所联合提出的低成本数据收集与策略学习框架。
在最初被提出时,UMI 的优点只是低成本与便携。
其数据采集设备非常简易,仅由手持夹爪、集成相机与 IMU 的传感模块、数据记录系统三大部分组成,整套成本约 400 美元。
操作时,使用者佩戴设备,在真实世界完成任务,无需机器人本体参与。
真正让 UMI 这一范式火起来的,是是美国具身智能公司 Generalist 与 Sunday Robotics 对 UMI 技术的应用,他们分别验证了 UMI 技术路线的规模性与有效性。
Generalist 基于 UMI 范式,采集了 27 万小时的数据,当前每周可采集约 1 万小时数据,数据采集效率还在不断上升,并在此基础上训练出具身基础模型 GEN-0,实现了复杂、长时序操作任务的零样本泛化。
Sunday Robotics 则是利用 UMI 范式采集的数据,训练出了 ACT-1 模型,并做出一个极致的 demo。
其轮式机器人 Memo 能够围绕「清理桌面」的简单指令,自主规划并执行数十个连续任务,包括收纳杯子、刀具、碗筷、清理垃圾。此外它还会叠袜子、使用手冲咖啡机,执行从填粉、压粉到启动萃取的完整流程。
值得注意的是,Sunday Robotics 的联合创始人就是 UMI 的一作迟宬。
海外团队验证了 UMI 的可行性,而真正将这一路线推向工程化与规模复制的,是国内的鹿明机器人。鹿明机器人联合创始人丁琰,是最早系统性研究 UMI 范式的研究者之一。
早在 2024 年初,他便启动了相关项目,并在随后主导研发了 FastUMI、FastUMI Pro,将原本偏科研的 UMI 升级为具备工程可用性的系统。
原始 UMI 存在两个明显限制:一是硬件绑定严重,只能适配特定夹爪和少数高端机械臂;二是数据处理流程冗长。
FastUMI 针对这两点进行了系统性重构。通过统一的指尖套件,FastUMI 实现了数据与机器人本体的彻底解耦。
无论使用何种夹爪,只要安装相同指尖模块,机器人所「看到」的操作视角便可与人类采集时保持一致,使一份数据能够复用于多种不同构型的机器人,大幅提升了数据通用性。
同时,FastUMI 将原本事后完成的轨迹计算,前置到采集阶段,通过独立的实时追踪模块,实现「数据采完即可使用」,显著提升了效率与精度。
在此基础上,鹿明进一步升级,推出了 FastUMI Pro,使其具备工业级部署能力。
与传统遥操作相比,FastUMI Pro 将单条数据采集时间从约 50 秒缩短至 10 秒,效率提升 5 倍。
综合人力与硬件成本后,FastUMI Pro 单位数据成本仅为遥操作的约 1/200。
鹿明设计了一套夹爪式采集设备,集成 RGB 鱼眼相机,高精度深度相机,超高精度视觉里程计传感器,高分辨率夹爪开合传感器等,夹爪整体重量仅 600g,负载能力达 2kg,定位精度可达 1-3mm。
目前,鹿明已基于 FastUMI Pro 累积超过 1 万小时数据,并完成了从采集、处理到模型训练的完整闭环。最近,鹿明机器人还发布全球首款背包版 UMI 数采设备 FastUMI Pro(背包版),计划在多个城市投放 1 万台背包版 FastUMI Pro 设备,开展系统性采集。
在丁琰看来,具身智能真正的壁垒,不只是采集方式,还在于那条冗长而复杂的数据 pipeline。数据处理、异常场景管理、质量控制与长期迭代经验,本 身就是核心竞争力。
鹿明构建了六道数据检测与校验流程,使数据有效率从行业常见的约 70% 提升至 95% 以上。
经过一系列工程化升级,UMI 的优势已不再局限于低成本、便携,逐步扩展到精度高、效率高、可规模化、可复用、以及与硬件解耦的跨本体迁移能力。
需要说明的是,这里的「跨本体迁移」并不意味着 UMI 能够适配所有机器人,而是指能够在较短周期内完成对数十种不同构型机器人的适配。
鹿明机器人创始人喻超介绍,目前全球具身智能圈内有超过三分之二的顶尖团队,正在使用 FastUMI Pro。
具身智能,需要万亿级数据
具身智能的竞争重心正在从本体参数转向大脑智能,而机器人大脑的突破,最终绕不开数据供给。
可以预见,数据能力将会从竞争优势,转变为行业门槛。
无法持续产出高质量数据的企业,将很难进入下一阶段的模型竞赛。回看当前具身智能的数据体系,几条技术路线各有边界:遥操作的数据质量最高,最接近真实可用能力,但成本高、规模受限。
仿真数据可无限扩展,适合预训练与探索,却难以覆盖真实世界的复杂噪声。
人类视频数据贴近现实、成本可控,但物理交互信息不完整。
UMI 则在成本、质量与规模之间取得平衡,不过其真实能力有待进一步检验。
因此,在真实实践中,几乎没有公司押注单一路线。
千寻智能创始人韩峰涛直言,目前不存在一种数据类型可以独立支撑具身大模型训练,更合理的做法,是将不同数据用于不同阶段。
智元在建设数据采集工厂的同时,也布局仿真路径,开源仿真数据集 AgiBot Digital World,为模型提供仿真数据补充。
银河通用则以仿真数据完成预训练,再引入少量真机数据进行后训练,降低虚实偏差。
它石智航创始人陈亦伦认为,具身智能真正可用,至少需要 1000 万小时级别的数据量。
银河通用团队则判断,若要实现跨任务、跨场景的泛化能力,所需数据规模可能达到万亿级别。
而现有具身智能数据集的数据总量仅几十万量级,且有效性受制于标准、硬件不统一。
深圳市人工智能与机器人研究院具身智能中心主任刘少山认为,数据困境的破解之道在于数据资产化与标准化,需要「三步走」:首先统一数据格式与接口,打破孤岛实现对齐;其次将数据转化为可评估、可定价的资产;最后建立共享与交易机制,让数据在不同主体间流动。
在真正可用的人形机器人到来之前,具身智能的数据体系,注定是一场多路线并行、长期投入、不断试错的系统工程。
无论路线如何分化,数据都是所有具身智能能力得以成立的前提,其重要性必将在今年的竞争中被不断放大。持续产出高质量数据的能力,会成为今年具身智能公司最突出的竞争力。
原文标题 : 具身智能,正在打一场“数据战”