近年来,随着多模态 AI 技术的突破性演进、高效算力设施的广泛部署、以及政策扶持与资本涌入的双重加持,我国具身智能市场规模持续扩大。数据显示,2025年中国具身智能市场规模已达9150亿元,同比增长20.4%,行业增长动能持续释放;预计到 2026 年,市场规模将进一步增长至 10904 亿元。
然而,在产业规模快速扩张的背后,真实场景数据匮乏正成为制约行业发展的关键瓶颈。据CSDN统计,具身智能的技术迭代需以数百 PB 级物理交互数据为基础,而当前现有数据存量的缺口已超过 99%。另有行业调研表明,优质灵巧手数据的供给水平,目前仍未达到实际产业化需求的 10%。
面对如此严峻的 “数据饥荒”,具身智能行业逐步摒弃以往各自为战的格局,以数据共建为纽带,聚力构建开放协作新生态,而开放原子具身智能开源数据集社区的正式启动,正是这一产业协同转型的核心落地载体。

据了解,该社区由开放原子开源基金会发起建立,乐聚机器人牵头建设,联合蚂蚁灵波、库帕思、上海交通大学、哈尔滨工业大学、同济大学、宇树、具识智能、具脑磐石、无问智行等核心单位共建,是国家级平台发起的第一个具身智能开源数据集社区。社区将通过整合开放原子开源基金会、高校、骨干企业等产学研用多方核心力量,集中开源真实场景下的高质量数据与配套工具链,搭建起开放共治的协作平台并统一数据格式、标注规范等行业标准,同时推动技术研发与产业应用场景的深度衔接,从而打破企业间的 “数据孤岛”,消除数据流通梗阻与资源重复浪费,为具身智能产业提供从稀缺数据供给、标准化处理到产业落地应用的全链路支撑。

此外,作为本次重磅社区牵头方的乐聚机器人,还同步开源全球首个融合触觉灵巧操作与全身高动态运动的多模态具身智能数据集“OpenLET”。该数据集涵盖 6×12×10 指尖压力矩阵的触觉阵列数据,精度达 ±0.5% 的六维力数据与高分辨率 RGB-D 视觉数据。通过打通 “视觉 - 力触 - 动作” 的全链路数据同步通道,OpenLET可实现多维度信息的精准对齐,不仅完整还原机器人操作的细微动态,更有效解决了传统单模态数据孤立存在、细节刻画不足的核心痛点。
同时,其全身协同数据覆了多达41 个关节的精细控制信号,能够将任务场景从简单的行走、站立,延伸至深度下蹲、弯腰等需要全身协同的高难度联动任务,在动作节奏把控、动态平衡维持及交互顺应性上实现高度拟人化,为复杂场景下的具身智能模型训练提供了稀缺的高质量样本支撑。

多方协同共建背景下,为何是乐聚机器人牵头?
乐聚机器人能成为此次开源社区的领头羊,核心源于其前瞻性的战略布局与实打实的行业积淀。在具身智能技术从实验室走向产业应用的转型期,乐聚机器人便已提前落子具身智能数据基建,不仅先后参与搭建了济南、青岛、上海、苏州、合肥、郑州、广州白云、芜湖等地的具身智能训练场,还在石景山区政府牵头下,京石科创集团、乐聚机器人联合运营了全国最大的人形机器人训练场,占地面积上万平方米。
该训练场以 “真机实景” 为核心产出逻辑,所有数据均来自机器人实际作业交互,天然具备跨本体、跨场景的迁移适配能力,有效破解了行业长期面临的数据失真、获取成本高、落地迁移难等瓶颈;同时,技术团队自主研发数采平台,通过 “采集 - 清洗 - 标注 - 导出” 全流程规范化操作,叠加 “自动 + 人工 + 模型” 三重质量校验,确保数据交付的高可靠性,经专业机构认证,训练场内生产的单条数据合格率高达99%。

产能方面,据乐聚机器人董事长冷晓琨分享,依托全国多地构建起的规模化数据生产网络,乐聚机器人每年可生产多达 2500 万条高质量真机数据。
此外,乐聚机器人自主构建的LET数据集,更是凭借着60000+分钟的真机实采、多模态、多场景特点,直接从根源部分破解了高质量具身智能数据集供给瓶颈。据了解,目前LET 数据集全平台总下载量突破 100 万次,同时已累计向行业客户交付 20000 小时真机数据,成功跑通数据合规交易全链条。
结语
当下,具身智能行业正迎来市场扩容与数据短缺的博弈期,此次国家级开源数据集社区的落地,让产学研多方力量拧成一股绳,既统一行业标准,也有效填补了数据缺口,打破以往“数据孤岛”的壁垒。
未来,随着数据共享机制的不断完善,技术研发门槛的持续降低,具身智能技术讲加速迭代,逐步渗透到工业、商业、民用等多个领域。这种以协同促发展的路径,也将推动产业稳步迈向规模化落地新阶段,筑牢我国在全球具身智能领域的发展优势。