石智航WIYH数据集开源,全球首款具身VLTA多模态数据加速智能落地

石智航WIYH数据集开源,全球首款具身VLTA多模态数据加速智能落地

2025年12月26日 17:59
本文共计2574个字,预计阅读时长9分钟。
来源/具身研习社 责编/爱力方

12 月 26 日,它石智航重磅开源了全球首个大规模真实世界具身 VLTA(Vision-Language-Tactile-Action)多模态数据集 ——World In Your Hands(简称 “WIYH 数据集”):https://wiyh.tars-ai.com/。该数据集首次亮相于今年 10 月,并在刚刚结束的它石智航技术首秀发布上,作为「超级算法」中的核心成果之一得到行业广泛认可。首秀现场展示的世界首台可人工刺绣机器人等成果,其丝滑动作背后的核心正是基于 WIYH 数据集训练的AWE2.0模型。

image.png

WIYH 数据集通过首创 “Human-centric”(以人为中心)的数据采集新范式,破解了遥操作数据采集规模化成本高、仿真数据在 sim2real 时存在 GAP,难以丝滑迁移到现实世界的痛点,填补了具身智能所需的高质量、可泛化、大规模真实世界数据的空白,为具身基座模型实现 Scaling Law 提供了关键语料。要知道,当前具身智能所需数据量与现有储备之间至少相差两个数量级,WIYH的开源正为填补这一鸿沟提供了核心解法,加速了具身智能落地真实世界的进程。

image.png

在 Human-centric 采集范式下形成的 WIYH 数据集,具备了真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据:包含超过10万条以上的真实人类操作视频、40余种任务类型、100多种人类技能,覆盖了含520余种真实物品,真实还原商超、酒店、餐饮、工业、办公、家居等多行业的10种核心场景全链路任务,数据将分批次释放。WIYH是业内最大的Human-centric数据集,且仍在不断扩展和丰富中。

image.png

场景和任务分布

image.png

各场景技能分布

image.png

物体和技能词云

采集了丰富的数据之后,行业还面临数据迁移这另一核心难题,为此它石构建了 TARS Datacore 具身数据引擎。作为云端大模型,它实现了全流程的自动化标注,将原始视频转化为机器人能理解的“教科书”。这套标注体系不仅涵盖了标定、深度、动作、指令、思维链 (COT)、掩码(Mask)和触觉(Tactile)等基础信息,更通过以下三类精准标注,形成了从感知到动作的全链路闭环:

•原子任务标注:理解“做什么”。将复杂动作拆解为“抓取、移动、放置”等不可再细分的逻辑单元,并配以自然语言指令,让机器人明白长流程任务的操作顺序与步骤内涵;

•图像感知标注:看清“在哪里”。通过云端语义模型给每个物体打上清晰的边界标签(掩码),并利用 3D 视觉技术计算画面中物与人的深度距离,赋予机器人精准的空间感,使其能理解物体的边界与远近;

•视觉语言标注:思考“为什么”。这是最关键的“大脑训练”,它通过空间明确指代操作对象,防止机器人在杂乱环境中错认目标。同时,让模型预测下一步任务,并设置逻辑陷阱来校验机器人的判断力。

它石首席科学家丁文超博士表示,“Human-centric数据采集范式配合TARS Datacore数据引擎,可以记录和生产最高质量、最丰富的具身智能数据,真正使得scaling law成为可能。”

强大的数据采集与迁移能力,共同打磨出 WIYH 数据集在空间推理、世界模型、跨本体迁移等方面的独特优势。目前,多项基准测试结果已印证了 WIYH 数据集的核心价值:

•在视言大模型(VLM)的空间推理评测中,通过对 GPT-4o、Qwen-VL-Plus 等主流模型在空间推理(SR)和空间感知(SP)等维度的对比发现,虽然各模型在通用视觉任务上表现出色,但在处理复杂的以人为中心的空间逻辑时仍存在显著差异。这一基准测试直观地揭示了当前大模型在感知操作空间时的局限,也凸显了 WIYH 数据集在训练更高阶空间感知能力方面的独特价值。

•在世界模型(World Model)的物理一致性验证上,WIYH 数据集展现了强大的“物理引擎”属性。评测结果显示,在加入 WIYH 数据后,COGVIDEO 和 DYNAMICRAFTER 等视频生成模型在一致性、流畅度、动态性和质量等四大关键指标上均实现了全面跨越,其中动态性(Dynamic)指标得分提升了 15.6 分。配合 4D 重建技术,通过对“倒酒”、“叠衣服”等任务进行精确的几何重建,为模型理解真实世界的物理动态提供了高真值的监督信号,确保生成的动作既流畅又符合物理常识。

•在机器人跨本体迁移实验(Cross-embodiment Experiments)层面,WIYH 数据集真正实现了“从人到机器”的能力迁移。通过将人类演示视频与机器人操作数据进行协同训练(Co-training),机器人在复杂场景下的泛化能力得到了质的提升。实验数据表明,在极其杂乱的场景中,仅机器人操作数据只能达到 8% 成功率的任务,在引入 WIYH 人类视频辅助后,成功率暴涨至 60%。这一显著的性能增益证明了 WIYH 数据集不仅是视觉语料,更是提升机器人实战能力、解决真实世界非结构化环境操作难题的核心“养料”。

image.png

它石创始人兼 CEO 陈亦伦博士认为,“在 AI 领域,最极致的开放不是开源模型,而是开源数据集,因为所有的 AI 模型本质上都可以通过数据和合适的训练方法‘生长’出来。” 它石WIYH的此番开源,正是以开放的态度,为行业通用具身基座模型训练提供关键语料和基础设施,助力具身智能迈向通用智能的新高峰。

它石WIYH数据集于今日起(12.26)可正式访问。该网站构建了从认知到实践的全方位支撑:用户既能通过结构化的数据集全景展示、基准测试结果与典型用例,快速完成对数据集性能与场景的初步了解,又能配合快速入门指南与自动化 SDK,直接进入深度的落地实践与开发部署。网站公布了标准化的 off-the-shelf (OTS) 开源可复现方案,也放出了 TARS商用级Human-centric数据解决方案TARS SenseHub的相关信息。 TARS SenseHub 是由它石自研的超轻量数据采集套件,包含 “眼睛” TARS-Vision 与 “双手” TARS-Glove 两大关键组件。其核心理念是让人类和机器共享同一套感知体系,即机器人通过数据“能看人之所看,感人之所感”。

未来,它石智航将继续坚持以人为中心的具身数据与模型新范式,持续挖掘真实世界的数据价值,让面向万物、赋能万业的具身智能真正从实验室走进千家万户。

01490c5d99569026d6280c02865a8737.jpg

来源:它石智航 WIYH 数据集今日正式开源:全球首个具身 VLTA 多模态数据,加速具身智能真实世界落地 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯