作者:李鑫 出品:具身智能大讲堂
机器人技术想要真正走入通用化阶段,就必须要求机器人摆脱对仿真环境的依赖,从纷繁复杂的真实世界数据中习得可靠的物理技能。近日通用人工智能公司(Generalist AI)发布的GEN-θ系列具身基础模型,给出了突破性答案。
该模型摒弃了网络视频与仿真数据的训练路径,完全基于高保真度的原始物理交互数据构建,该思路与大型语言模型对文本的规模化学习异曲同工,却将数据基础替换为来自家庭、仓库和工作场所的连续感觉运动数据流,为机器人走向通用智能开辟了另一种技术方案。
1►无需双系统架构!GEN-θ 以谐波推理撑起超大模型即时行动能力
GEN-θ作为一种具身基础模型架构,以视觉与语言模型的优势为依托,进一步拓展了对人类级反射能力及物理常识的原生支持。该架构的核心特性为谐波推理,模型经专项训练后,可基于异步且连续的感知与行动令牌时间流,实现思考与行动的同步执行。

该设计专门针对机器人领域的特殊限制打造。区别于语言模型可预留充足时间思考后再生成回复,机器人必须在物理环境持续动态变化的场景下即时采取行动。而谐波推理能在感知流与行动流之间构建和谐的交互机制,这一特性让 GEN-θ 得以扩展至超大模型规模,且无需依赖 System1 - System2 架构,也无需借助耗时的推理引导控制器。
在架构设计上,GEN - θ 明确采用跨平台方案。该统一架构可适配不同类型的机器人,且已在 6 自由度、7 自由度以及 16 个以上自由度的半人形系统中完成测试验证。这一优势使得模型经单次预训练后,即可为各类异构机器人集群提供服务。
2►突破机器人智能阈值!GEN-θ 证实 70 亿 + 参数是物理常识习得的关键门槛
GEN-θ研究团队发现机器人智能存在明确的规模依赖阈值。通用人工智能团队的扩展实验表明,当模型在高数据量环境下迭代时,其能力会发生明显的变化,而只有达到足够规模的模型才能有效吸收海量物理交互数据。
研究团队使用数据来呈现了这一规律:
10亿参数(1B)模型在预训练期间会出现"骨化"现象,权重停止吸收新的复杂感觉运动数据。
60亿参数(6B)模型开始显现预训练价值,展现出强大的多任务处理能力。
当模型规模达到70亿参数以上时,能够完全内部化大规模机器人预训练的核心知识,下游任务仅需几千步后训练即可实现高效迁移。

在完全保留(即零样本)的长时域下游任务中,调整GEN-0模型规模(不同颜色)可以提高下一动作验证预测误差(y 轴,数值越低越好)的性能。1B 参数模型表现出明显的早期僵化,而 6B 和 7B 模型则分别在吸收预训练数据方面表现更佳。x 轴表示预训练计算量,已归一化,使得GEN-0 7B 模型的值为 1.0。
研究团队将这一现象与莫拉维克悖论相关联,指出物理常识与灵巧操作技能的习得,相比抽象语言推理需要更高的计算阈值,而GEN-θ的70亿+参数版本已成功跨越这一门槛。
目前,该模型系列已扩展至100亿以上参数规模,更大变体对新任务的适应能力持续提升,所需后训练工作量显著减少。
模型规模与预训练计算量的协同效应,在长时域下游任务场景中表现得尤为突出。实验数据显示,10 亿参数(1B)级别的模型,其性能在训练进程早期即进入稳定阶段且无明显提升;而 60 亿参数(6B)级与 70 亿参数(7B)级模型,其下一个动作的验证预测误差,会随着预训练计算量的逐步增加呈现持续降低的趋势。
3►覆盖 16 类任务验证 GEN-θ 揭示机器人预训练数据与误差的稳定幂律关系
GEN-θ 研究团队率先在机器人领域构建起清晰的尺度律,该规律明确揭示了预训练数据量、计算投入与下游任务性能三者间的可量化关联。为验证该尺度律的有效性,研究人员从 GEN-θ 的训练进程中,提取了不同预训练数据集子集对应的模型检查点,并将这些检查点置于涵盖 16 个任务集的监督式微调阶段展开系统性测试。测试任务覆盖面广泛,既包含乐高搭建这类考验精细操作能力的灵巧性任务,也涵盖快餐包装等贴合实际应用的行业流程类任务,同时纳入了各类基于多指令驱动的泛化性任务。

随着预训练数据(不同颜色)的不断增加,多任务模型在训练后的性能在所有 16 个任务集上均有所提升,验证损失(上图)和下一个动作预测误差(下图 4x4 网格)均有所降低。这些任务包括评估灵巧性(例如搭建乐高积木)、行业特定工作流程(例如快餐包装)和泛化能力(例如“_ any”任务)。
实验结果显示,当模型参数规模达到足够水平时,预训练数据集的体量与下游任务的验证误差之间呈现出稳定的幂律关系,该关系可通过公式 L (D)=(Dc/D)^αD 进行精准刻画。公式中,D 代表预训练过程中采集的动作轨迹数量,L (D) 则对应下游任务的验证误差值。这一量化模型为机器人领域的研发工作提供了关键指导:研发人员可借助该公式,精准估算达成目标动作预测误差所需的预训练数据体量;同时,也能通过公式权衡下游标注数据与额外预训练数据之间的替代比例,进而大幅提升机器人模型研发的整体效率。

GEN-θ模型的缩放定律能够很好地描述给定任务集下,后训练模型的渐近下一步动作预测误差与预训练数据集大小(以动作轨迹数量衡量)之间的关系。结合模型大小缩放定律,可以利用这些结果预测任何下游后训练任务的预训练计算和数据的最佳分配方案。
值得注意的是,该研究发现与具身智能领域的 Test-Time Scaling Law 形成了明显呼应。此前已有相关研究证实动作误差与采样数量之间存在幂律关系,而 GEN-θ 的研究进一步将这一规律从模型推理阶段拓展至预训练过程,最终构建起一套从数据输入到性能输出的完整量化体系,完善了具身智能模型训练的量化理论基础。
4►27 万小时真实数据 + 周增 1 万小时!GEN-θ 的超量级数据引擎有多强?
GEN-θ 模型的研发与落地,离不开其背后所搭建的规模空前的真实世界数据引擎以及全流程定制化基础设施,这两大核心支撑共同为模型的高效训练与性能优化筑牢了根基。

GEN-0的训练数据比目前存在的一些最大的机器人数据集(截至 2025 年 11 月)要多几个数量级。
该模型用于训练的数据集,涵盖了从全球数千个家庭、各类仓库及不同类型工作场所采集到的真实世界操作轨迹数据,累计数据时长达到 27 万小时。更为关键的是,该数据集并非静态固定,而是处于持续扩充的状态,目前以每周新增 1 万小时数据的速度不断丰富,其涵盖的真实操作数据量级,已远超此前机器人领域已有的各类大型数据集,为模型学习多元场景下的物理交互规律与操作逻辑提供了充足的数据支撑。

展示了如何搜索我们预训练数据集中不到 1% 的数据。该数据集包含来自不同环境下数百万种不同活动的操作数据。可视化界面引导用户浏览数据集中对应语言标签嵌入的 t-SNE 图。给定一段文本描述,可视化工具会定位最近邻区域,并在该区域内随机抽取一组相关视频并显示出来。
为满足如此海量真实世界数据的采集、传输、存储与处理需求,GEN-θ 研究团队针对性地构建了全链路定制化的技术支撑体系,该体系涵盖多个核心技术模块且各模块协同发力:包括处理分布式站点上行带宽的专用互联网线路、多云合约架构、定制上传服务器,以及约10,000个计算核心组成的多模态处理集群。

并通过数十PB数据的高效压缩技术,结合前沿视频基础模型的数据加载方案,该系统实现了惊人的训练效率。每天的训练量可等效吸收6.85年的真实世界操作经验,为模型的规模化迭代提供了坚实支撑。
5►颠覆 “数据越多越好”!GEN-θ 证实数据混合设计与模型规模同等关键
GEN-θ的研究颠覆了"数据量越大越好"的传统认知,证明数据质量与混合设计对模型性能的影响不亚于模型规模。研究团队在8个预训练数据集和10个长期任务集上开展大规模消融实验,发现不同的数据混合方式会导致模型在灵巧性、实际应用和泛化能力三类任务中表现出明显差异。
实验采用两项核心衡量指标:模型对后续动作的验证均方误差(MSE),以及模型策略与真实动作高斯分布之间的反向Kullback-Leibler(KL)散度。结果显示,MSE和反向KL值均较低的模型更适合监督式微调;而MSE较高但反向KL值较低的模型,其动作分布呈现多峰性特征,更适用于作为强化学习的初始模型。这一发现为机器人模型的定向优化提供了重要依据,可根据具体任务需求定制数据混合方案,实现性能最大化。
6►结语与未来:
GEN-θ具身基础模型的核心价值不仅在于模型本身的性能突破,更在于为机器人领域建立了可复制、可量化的发展路径,证明通过真实世界数据驱动的大规模预训练,结合合理的架构设计与数据策略,机器人能够自主习得物理常识与灵巧技能,无需依赖仿真环境的过渡,重新定义了通用机器人的学习的新范式。