全球首个视频转3D具身数据集开源 动捕遥操或成过去

全球首个视频转3D具身数据集开源 动捕遥操或成过去

机器人大讲堂

机器人大讲堂

2026年01月16日 17:30
本文共计3895个字,预计阅读时长13分钟。
来源/机器人大讲堂 责编/爱力方

在机器人学习领域,"数据荒" 一直是制约技术落地的核心痛点。传统机器人训练依赖昂贵的遥操作设备或专业动捕工作室,不仅成本高企,还难以覆盖真实世界的多样化场景。而互联网上海量的人类手-物交互视频,却因物理不一致、形态不匹配等问题,长期被挡在机器人训练的数据大门外,如果能够有效解决这个棘手问题,那么机器人产业将面临一次彻底的变革。

 

通过互联网视频提取具身智能训练数据,已成为行业突破“数据荒”的重要方向,特斯拉早在2025 年就明确布局,Optimus 机器人已实现通过第一视角视频学习扫地、炒菜等16 项任务,后续更是加大使用互联网第三人称视频扩大训练规模,复刻FSD 的成功路径。

国内不少企业也在跟进这一技术路线,但行业依旧处于各自为战的状态,多数企业的数据仅服务于自有模型,既不对外开源,也缺乏统一的质量评估标准,导致数据精度、一致性等核心指标无法量化验证,难以形成协同效应。不过,现在这种现状即将迎来转机。

 

近日,清华大学与枢途科技研发团队联合推出的RoboWheel数据引擎正式发布。该引擎可将普通单目 RGB/RGB-D 相机拍摄的人类手-物交互(HOI)视频,转化为适用于工业机械臂、灵巧手、人形机器人等不同形态设备的训练数据,无需复杂硬件即可实现媲美遥操作的训练效果。

 

基于RoboWheel 数据引擎,研究团队构建并推出大规模多模态数据集HORA。该数据集已包含15万条轨迹的多模态机器人训练数据,融合多摄像头采集数据、单目视频及公开HOI语料库,可直接用于具身模型的训练与评估。

1 月 16 日,HORA 数据集同步开源,配套释出的还有基准模型训练代码,开发者可直接下载部署与测试。

项目地址:https://zhangyuhong01.github.io/Robowheel/

Huggingface:https://huggingface.co/datasets/HORA-DB/HORA

Github开源工具包:https://github.com/zhangyuhong01/Robowheel-Toolkits

枢途科技表示,目前开源的数据集仅为HORA数据集的一部分,今年上半年团队还会陆续扩充数据集的规模,预计最终版本的数据规模将达到百万量级,有望成为全球规模最大的基于视频转3D具身数据的数据集。

▍RoboWheel如何让视频数据“适配”机器人训练?

RoboWheel的技术核心在于其对人类手-物交互的高精度解析与灵活转化能力,共包含三个关键部分。

给定单目RGB(-D)输入,研究团队首先估计手部或全身的运动,以及被操作物体的运动。随后,在截断符号距离函数(TSDF)和强化学习的引导下进行联合优化,以提升物理合理性并确保机器人可触及性。得到的轨迹会被重定向到多种不同的机器人形态,包括机械臂、灵巧手和人形机器人。最后,在Isaac Sim中对观测数据和轨迹执行领域随机化处理,以丰富机械臂的观测多样性,并在VLA和模仿学习两类政策基准中,对生成的具身数据进行有效性验证。

第一步:物理可信的HOI重建

要让机器人"看懂"人类动作,首先需要从二维视频中还原三维空间中的手-物交互轨迹。RoboWheel整合了人体姿态估计、物体重建技术,能精准提取手部MANO参数、物体6D位姿及网格模型。

将手部关节映射至夹具的末端执行器位姿,包括夹具开合状态的对应映射。

更关键的是,它解决了传统重建中常见的穿透、抖动问题。通过基于符号距离函数(SDF)的碰撞惩罚机制,避免手与物体的不符合物理规律的穿透,再通过残余强化学习(RL)优化,在保证机器人可达性的前提下,进一步修正手-物相对姿态,让轨迹既符合人体运动规律,又满足机器人操作的物理约束。

手- 物交互(HOI)重建质量对比 

RoboWheel 的手 - 物交互(HOI)重建结果。无论数据是否来自公开手 - 物交互(HOI)数据集(如 DexYCB 数据集),RoboWheel 均能实现高精度的手 - 物交互(HOI)重建。

最终重建的轨迹在关键指标上全面超越现有方法:物体表面Chamfer 距离仅5.1cm,远低于HORT的8.9cm;手部抖动降至0.92cm/s²,是现有最优方案的1/3以下;手-物相对姿态的平移标准差仅0.26cm,旋转标准差1.9度,实现了超高精度的时空一致性。

第二步:跨形态重定向一套动作适配所有机器人

不同机器人的"身体结构"差异巨大,工业机械臂的自由度、灵巧手的手指布局、人形机器人的全身运动逻辑截然不同。RoboWheel的跨形态重定向技术,能将统一的人类动作轨迹,灵活映射到各类机器人的操作空间。

对于6/7自由度工业机械臂(如UR5、Franka Emika Panda等),系统通过KNN分类器判断人类手势类型:整手操作时,基于手掌MCP关节构建稳定坐标系,抑制指尖抖动;指尖操作时,通过拇指与食指的相对位置定义夹具轴线。配合CoTracker关键点跟踪技术,精准判断夹具的开合状态,即使在严重遮挡下也能稳定识别。

针对灵巧手和人形机器人,技术团队则利用运动学相似性和接触保持约束,将重建的手部动作映射到机器人关节空间,通过逆运动学和动力学优化,确保动作的物理可行性与意图一致性。实验结果显示,这套重定向方案在UR5机械臂上的直接复现成功率高达91.7%,远超GAT-Grasp的50%和YOTO的66.7%。

第三步:仿真增强,让数据规模指数级增长

单一视频的训练价值有限,RoboWheel在Isaac Sim仿真环境中构建了丰富的数据增强体系,在保持交互语义不变的前提下,极大拓展了数据分布的多样性。

RoboWheel在仿真中的多样化数据增强 

这些增强策略包括:设备形态随机化,将同一轨迹适配到5种主流机械臂;物体检索替换,基于几何相似性和语义嵌入,自动替换为同类物体(如杯子换马克杯、盒子换纸箱);轨迹增强,对操作段和非操作段分别进行刚性变换和路径重映射;场景增强,随机化背景纹理、光照条件、桌面clutter等环境因素。

更重要的是,所有增强操作都在统一的规范动作空间中进行,确保不同形态、不同场景下的交互逻辑保持一致,进一步提升机器人的泛化能力。

▍HORA(Hand-Object-Robotic-Action)数据集:15万条轨迹撑起机器人学习新基准

基于RoboWheel数据引擎,团队构建了大规模多模态数据集HORA,整合了三种数据源:自定义多视角动捕系统(带触觉手套)、RGB(D)录制数据、公开HOI数据集,总计包含超过15万条轨迹。

这个数据集的独特之处在于其"双模态兼容"特性,既包含手-物交互相关的手部参数、物体位姿、接触标注等HOI模态,同时也提供机器人视角观测、末端执行器轨迹等机器人专用模态。其中动捕子集还记录了高精度触觉信号,为精细操作学习提供了宝贵数据。

模态与规模对比。对于HORA 数据集,前三行分别对应动作捕捉(mocap)子集、录制的 RGB(D)子集以及公开手 - 物交互(HOI)子集。“✗” 和 “✓” 分别表示该模态的缺失与存在。

HORA 数据集的三个子集构成 

与现有数据集相比,HORA不仅规模更大,更实现了从人类交互到机器人操作的直接衔接。例如GRAB、HO3D等传统HOI数据集缺乏机器人可用数据,而DROID、LIBERO等机器人数据集则没有完整的HOI语义信息,HORA的出现填补了这一空白。

▍实测验证:性能比肩遥操作泛化能力大幅提升

在真实机器人实验中,RoboWheel生成的数据展现出惊人的实用价值。团队在8个 household 任务(分为简单/困难两组)上,对ACT、DP、RDT、Pi0四种主流视觉-语言-动作(VLA)和模仿学习模型进行了测试。

按难度分组的真实世界任务性能(%) 

结果显示,仅用10条HORA轨迹微调的模型,性能与基于10条遥操作数据训练的模型相当,简单任务平均成功率18.8% vs 12.5%,困难任务6.3% vs 1.3%。而经过5k HORA轨迹预训练后,模型性能更是大幅跃升,RDT+5k HORA在简单任务上成功率达85%,困难任务达47.5%,复杂任务的性能提升尤为突出。

RDT 在未见过场景中的任务性能。 

机器人直接复现成功率↑ (%) 

在泛化性测试中,数据增强的价值凸显无遗。面对未见过的物体、背景和杂乱场景,基于增强后HORA训练的RDT模型,在未知背景下的成功率提升了25%,有效抵御了视觉域偏移带来的性能下降。这意味着机器人在真实复杂环境中的适应能力得到了实质性增强。

▍技术平权!RoboWheel正在开启一个"数据普惠化"时代

RoboWheel数据引擎的出现,不仅在于技术层面的创新,更在于降低了机器人技能学习的门槛。以往需要专业动捕实验室或昂贵遥操作设备才能获取的高质量训练数据,如今只需一台普通相机拍摄人类操作视频即可生成。

这种"低成本数据采集+高保真技能转化"的模式,有望推动机器人学习进入规模化、普惠化阶段。无论是工业场景的特定操作任务,还是家庭服务机器人的日常技能学习,都能通过采集人类演示视频快速构建训练数据,大幅缩短开发周期。

当然,研究团队也指出,目前在灵巧手和人形机器人的真实世界跨形态验证方面仍有局限,但不可否认的是,RoboWheel已经为机器人从人类演示中学习开辟了一条高效、灵活、低成本的新路径,有望加速通用机器人技术的落地进程。今年Robowheel研发团队将会继续扩充HORA数据集规模到百万量级,并探索更多在更丰富机器人形态上进行学习训练的可能性。

来源:全球首个基于视频转3D具身数据的数据集开源!动捕、遥操获取数据的时代要结束了? | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯