UT Dallas与Nvidia开源HO-Cap方案 含65万帧高质量数据

UT Dallas与Nvidia开源HO-Cap方案 含65万帧高质量数据

2025年12月05日 10:17
本文共计2856个字,预计阅读时长10分钟。
来源/具身研习社 责编/爱力方

作者:李鑫   出品:具身智能大讲堂

人机交互、VR/AR和机器人操作研究中,“手如何与物体互动”始终是核心议题。无论是让机器人学会抓取杯子,还是在VR里还原真实的手部动作,都需要大量精准的手-物交互3D数据作为支撑。但长期以来,这类数据的获取却被两大难题卡住:要么依赖动辄数十万的动作捕捉设备,要么靠人工逐帧标注海量视频,耗时又耗力。

cf889add0f944c217e956affce1593c5.png

近日,得克萨斯大学达拉斯分校与英伟达的联合团队推出了一套名为HO-Cap的解决方案,不仅用低成本设备实现了高精度手-物交互捕捉,还配套发布了包含64个物体、65.6万帧数据的开源数据集。这套方案彻底打破了传统技术的壁垒,让手-物交互研究的门槛大幅降低。

1►HO-Cap设计思路:用普通相机+半自动化标注,实现“低成本高精度”

HO-Cap的核心创新,就是用“轻量化硬件”+“半自动化标注”的组合,一次性解决了传统方案的三大痛点。

c1fb308766ebc7b110621d6c56e4e122.png

数据集中的RGB帧、手部与物体的3D形状及姿态标注的渲染图,以及在NVIDIA Isaac Sim仿真环境中的相关渲染结果。

在硬件上,团队完全抛弃了昂贵的专用设备,转而采用常见的RGB-D相机和AR头显。具体来说,他们在实验场景里放了8台Intel RealSense D455相机(每台几千元),再加上一台微软Azure Kinect相机用于高精度3D重建,这些相机经过统一校准后,能从各个角度覆盖整个交互空间。同时,受试者会戴上微软HoloLens头显,既能捕捉第一人称视角的画面(就像人自己看到的场景),还能追踪头部姿态,让不同视角的数据能精准对齐。

191e6ba99ffd2fa517d6ee9c3865e401.png

数据采集装置说明图(8个RealSense摄像头+ HoloLens,无动作捕捉)

这套硬件加起来的成本,连专业mocap系统的十分之一都不到,而且不需要贴任何标记点——受试者可以自然地拿起杯子、传递物品,完全不受设备干扰。

更关键的是标注环节的半自动化流水线。团队没有让标注员逐帧工作,而是整合了多款成熟的AI模型,只需要人工做“临门一脚”的简单操作,就能自动生成高精度标注。

3089e1f772407cb204c84048b69eedd4.png

3D物体重建流程说明图

整个标注流程分四步走:第一步是3D物体重建,比如要重建一个杯子,标注员只需要在第一帧视频里给杯子选两个点,AI模型SAM2就会自动追踪杯子在后续所有帧里的位置,再结合BundleSDF算法,就能生成带纹理的杯子3D模型,连扫描都不用;第二步是物体姿态估计,先用FoundationPose模型初步算出物体的6D姿态(3个旋转角度+3个位置坐标),再通过8台相机的多视角数据交叉验证,用RANSAC算法剔除错误结果,最后用符号距离场(SDF)优化,让物体姿态和3D模型完美贴合;第三步是手部姿态估计,用MediaPipe检测手部21个关节点的2D位置,再通过多视角三角化得到3D坐标,还会用MANO参数模型优化,避免出现手腕扭曲、手指不自然的情况;最后一步是手-物联合优化,单独算出来的手和物体姿态,可能会出现“手穿过杯子”这种物理上不可能的情况,这一步就会让手和物体的3D模型互相约束,确保交互动作符合现实逻辑。

4189185f0e66ef38e8ee03ae73c717ec.png

研究团队从多视角RGB-D视频中获取手部与物体姿态的流程说明图。

整个过程中,人工只需要在第一帧选两个点、输入物体名称,剩下的全靠AI自动完成。对比纯人工标注,效率提升了至少10倍,而且标注精度还更高——团队随机选了800帧数据人工验证,结果显示物体姿态误差只有3.42像素,手部误差最低到3.82像素,完全满足研究需求。

2►65.6万帧数据的“宝藏数据集”:覆盖双手交互,还能直接给机器人当“老师”

有了这套采集和标注方案,团队构建了一个规模庞大的HO-Cap数据集,里面的内容几乎能满足绝大多数手-物交互研究的需求。

ed8472054878fbf4c4ddcd0e3b956979.png

HO-Cap数据集中的所有物体形状

这个数据集包含9名受试者,他们用双手或单手与64个不同物体互动,这些物体都是日常生活中常见的,比如杯子、勺子、剪刀、笔记本电脑,每个物体都有对应的3D模型。整个数据集有64段视频,共65.6万帧RGB-D图像,每帧都有手部21个关节的3D坐标、物体的6D姿态标注,还提供8个第三人称视角和1个第一人称视角的画面——相当于既能从“上帝视角”观察交互,也能体验“自己动手”的第一人称感受。

更重要的是,数据集覆盖了三种核心交互场景:最基础的“拾取-放置”(比如把杯子从桌子左边拿到右边)、“双手传递”(比如左手把笔递给右手),还有“按物体功能使用”(比如用剪刀剪纸、用鼠标点击)。这些场景正好对应了机器人操作、VR交互的核心需求,比如让机器人学会递东西,就可以直接用数据集中的“双手传递”视频当示范。

为了验证数据集的实用性,团队还做了三项基准测试,结果都证明了这个数据集的价值。在手部姿态估计任务中,用数据集测试HaMeR和A2J-Transformer两款模型,发现HaMeR因为用了大模型 backbone,在有物体遮挡的情况下表现更好,PCK(0.15)指标达到88.5%。

在物体检测任务里,针对没见过的“新物体”,CNOS和GroundingDINO模型虽然还有误检,但在已知物体检测上,训练后的YOLO11和RT-DETR表现出色,RT-DETR的平均AP甚至达到75.9%。

而在新物体姿态估计任务中,FoundationPose模型凭借数据集的支撑,ADD-S指标达到95.7%,远超MegaPose,证明数据集能有效提升模型对未知物体的适应能力。

3►还有小遗憾,但未来潜力无限

当然,HO-Cap也不是完美的。团队在论文里坦诚地提到了三个待解决的问题:一是BundleSDF模型对无纹理物体(比如白色陶瓷杯)和金属物体(比如不锈钢勺子)的重建效果不太好,容易出现表面模糊;二是MediaPipe偶尔会漏检手部关节点,尤其是手指被物体挡住的时候;三是对于小物体(比如钥匙)或圆柱形物体(比如擀面杖),因为能看到的细节太少,姿态估计的精度会下降。

但这些小遗憾,反而让HO-Cap的价值更突出——它不仅提供了一套可用的方案,还指明了后续研究的方向。而且团队已经把数据集、代码和视频都开源了,研究人员可以直接用这些数据训练模型,也能基于这套方案改进算法。

对于整个领域来说,HO-Cap的意义不止于“降低成本”。它让手-物交互数据的获取变得“平民化”,无论是高校实验室还是中小企业,都能用上高精度数据;更重要的是,它提供的人类交互示范,能直接赋能机器人模仿学习——未来机器人要学会开瓶盖、用叉子,可能只需要“看”几遍HO-Cap里的人类操作视频就能掌握。从某种程度上说,HO-Cap不仅是一套技术方案,更是打开手-物交互研究新大门的钥匙,或许用不了多久,我们就能看到更灵活的机器人手、更真实的VR交互场景走进现实。

论文地址:https://arxiv.org/pdf/2406.06843

项目地址:https://irvlutd.github.io/HOCap

来源:UT Dallas联合Nvidia开源HO-Cap方案!包含65万帧高质量数据! | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯