在具身智能的这场、日益被“数据”与“算力”所定义的全球“军备竞赛”中,一场深刻的、关乎“训练效率”的终极革命,正由中国的云计算巨头京东云,悍然引爆。
近日,其旗下的JoyBuilder模型开发平台,迎来了一次关键的、里程碑式的升级。
它,成功地,支撑了业界顶尖的、由英伟达所开源的具身智能基础模型GR00T N1.5,完成了一次,史无前例的“千卡级”大规模训练。
这,并非一次简单的、算力堆砌的“肌肉展示”。
它,是一次深刻的、系统性的、旨在将具身智能模型的训练效率,推向一个全新量级的“范式革命”。
其核心的成果,堪称惊人。
根据京东云官方披露的数据,通过对其JoyBuilder平台,进行全栈式的、软硬件的深度协同优化,其在训练GR00T N1.5这类、顶级的具身智能大模型时,其训练的效率,相比于开源社区的、通用的版本,提升了整整3.5倍。
一个更具冲击力的、直观的对比是:
-
在过去,要完成一次,基于1亿条真实世界交互数据的、千卡级规模的模型训练,其所需要的时间,是15个小时。
-
而现在,在JoyBuilder平台之上,同样规模的训练,其所需的时间,被戏剧性地,压缩到了,仅仅22分钟。
这场,近乎于“时间魔法”般的效率飞跃,其背后,是京东云的AI Infra(基础设施)团队,在三个核心层面,所进行的一次,堪称“外科手术”般的、精准的“全栈优化”。
层面之一:具身数据链路的“高速公路”建设。
-
具身智能的训练数据,其最大的特点,是海量的、碎片化的“小文件”。
-
为了应对这一挑战,京东云,重构了其整个的数据预处理与加载流程,并通过其自研的、高性能的并行文件系统“云海JPFS”,在高达1024卡的计算集群上,实现了超过400GB/s的、惊人的数据读取带宽。
-
这,确保了,在训练的过程中,GPU的“胃口”,能够被持续地、高速地,“喂饱”,从而,极大地,减少了因数据供给不足,而造成的“空等”时间。
层面之二:具身模型计算的“极致压榨”。
-
团队,针对当前主流的VLA(视觉-语言-动作)模型的、独特的计算特点,从最底层的Attention(注意力)层、中层的Token(标记)裁剪,到最终的、训练后的模型量化,都进行了极致的、深入到指令集层级的优化。
层面之三:具身模型基础设施的“神经网络”重构。
-
平台,搭建了一条高达3.2T带宽的RDMA(远程直接内存访问)后端网络。
-
并基于多轨道优化、拓扑感知调度,以及智能的震荡抑制等一系列先进技术,确保了,在“千卡”级别的、超大规模的集群之间,其“集合通信”(Collective Communication)的、高吞吐与低延迟,从而,保证了长达数周、甚至数月的训练任务,能够,稳定地、不间断地,运行。
爱力方的分析认为,京东云的这次,堪称“教科书级别”的全栈优化,其战略意图,是清晰而极具侵略性的。
它,深刻地,揭示了,在AI的这场“下半场”的竞争中,云计算平台,其核心的价值,正在发生的、一次深刻的“角色转变”。
-
在过去,云平台,更多地,是扮演一个,提供通用的、标准化的“算力水电煤”的、被动的“资源提供商”的角色。
-
而现在,它们,必须,也必然,要进化为一个,能够,针对特定的、前沿的AI工作负载(例如,具身智能),去提供,从底层硬件,到上层算法,都进行了深度协同优化的、主动的“效率赋能者”的角色。
JoyBuilder,通过,成为行业内,首家,能够,高效地,支持具身智能领域,最主流的LeRobot开源训练框架的AI开发平台,无疑,已经在这条,全新的、关于“效率”的赛道上,抢占了那个,最关键的、也是最有利的“先发身位”。
它,以一种无可辩驳的工程化实力,向整个行业,宣告:
具身智能,那通往“规模化落地”的、漫长而昂贵的道路,其最大的“加速器”,或许,并不在于,模型本身的又一次突破。
而在于,我们,是否有能力,为模型的“大脑发育”,提供一个,足够高效、足够稳定、也足够便宜的“成长环境”。
而京东云,正试图,成为那个,为所有,致力于“创造物理世界AI”的开发者们,提供这个“最佳成长环境”的、最核心的“基础设施提供商”。