当前,VLA模型通过大规模预训练具备了出色的泛化能力,但在实际场景部署时,除了需要广泛的通用性,还需达到专家级的任务执行水平。以家庭机器人为例:它必须能够折叠衣物、整理货架、组装家具,同时展现出堪比专用设备所要求的可靠性与精确性。
要让机器人实现能真正干活的目标,剩余的挑战就在于:如何在不牺牲通过大规模预训练所获得的通用性的前提下,赋予这些模型专家级的熟练度。
那么,问题的关键就在于后训练—— 使预训练模型适应特定的下游部署场景。在大型语言模型(LLMs)等领域,通过在线强化学习(RL)和人类反馈进行的后训练已被证明非常有效,使模型能够通过大规模分布式训练持续改进。然而,对于物理世界中的VLA后训练,结合分布式数据收集的在线学习的系统级实现,在很大程度上仍未得到充分探索。
现有针对VLA 模型的后训练方法多为离线式、单机器人适配或特定任务专用。在这种模式下,数据收集与策略改进在结构上是脱节的。
对预先收集的演示数据进行离线训练,不可避免地会遭受分布偏移的影响,微小的执行误差会在长时程任务中不断累积。这限制了模型在现实交互过程中的高效在线策略适配与可扩展学习。
为此,智元机器人提出一种可扩展在线后训练系统 —— SOP(Scalable Online Post-training),这是一套闭环智能体- 学习器架构,能够依托异构机器人集群的持续真实场景交互数据,对预训练的VLA模型进行适配优化。
SOP系统工作流程
机器人集群在各类任务中持续采集经验数据,将交互数据实时传输至中心化云端服务器,并异步接收更新后的控制策略—— 使 VLA 模型在保持通用性的同时,提升各任务的执行熟练度。
一、什么是SOP?
SOP 系统采用闭环架构,将执行与学习环节紧密耦合:机器人集群与中心化云端学习器之间持续交互 —— 前者向后者传输在线策略轨迹数据与人工干预信号,后者则向前者异步下发更新后的控制策略。这种 “采集 - 训练 - 部署” 的闭环模式,可实现低延迟的模型适配,且适配效率随机器人集群规模的扩大而自然提升。
SOP 框架包含三个核心模块:
由机器人智能体执行的分布式在线策略数据采集;
基于在线- 离线混合数据的集中式云端优化;
向智能体端回传的低延迟模型同步机制。
SOP系统架构
SOP 采用 Actor–Learner 异步架构:
1)Actor(机器人侧)并行经验采集
多台部署了同一policy模型的机器人(actors)在不同地点同时执行多样任务,持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer中。
2)Learner(云端)在线学习
所有交互轨迹实时上传至云端learner,形成由在线数据与离线专家示教数据组成的数据池。
系统通过动态重采样策略,根据不同任务的性能表现,自适应调整在线/离线数据比例,以更高效地利用真实世界经验。
3)即时参数同步
更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化,维持在线训练的稳定性。
SOP 是一套可扩展的Actor–Learner 框架,适用于通用策略的在线多任务后训练。机器人集群会将在线策略轨迹采样数据实时传输至云端学习器。
当系统出现故障或判定结果存疑时,将触发可选的人工干预流程,人工修正后的轨迹或动作会被纳入缓存区。云端学习器通过融合在线缓存区与静态离线缓存区的数据,生成任务均衡的更新参数;随后接入插件式后训练模块(如HG-DAgger/RECAP),并将更新后的权重异步广播至所有Actor(智能体),从而形成低延迟的在线训练闭环。
二、SOP的实现效果如何?
值得注意的是,SOP 具备算法无关性:该框架仅定义系统级的数据流与同步规则,具体的参数更新方法可替换为任意后训练算法。
在本研究中,智元团队基于两种现有后训练方法——HG-DAgger 与 RECAP —— 搭建 SOP 的实例化模型,并通过持续输入实时交互经验、执行高频异步模型更新,验证 SOP 可将这两种方法升级为可落地的在线策略式在线后训练方案。
在一系列现实操作任务(包括布料折叠、箱体组装和杂货补货)的测试中,智元机器人验证了SOP 系统能够显著提升大规模预训练 VLA 模型的性能,同时维持跨任务的单一共享策略。仅需数小时的现实交互即可完成高效的后训练,且模型性能与机器人集群的规模呈近似线性正相关。上述结果表明,将在线学习与集群级部署紧密结合,是实现通用型机器人策略在物理世界中高效、可靠、可扩展后训练的关键技术路径。
整体来看,研究团队围绕三个问题系统评估SOP:
1)SOP 能为预训练 VLA 带来多大性能提升?
2)机器人规模如何影响学习效率?
3)不同预训练规模下SOP 是否稳定有效?
1. SOP 能为预训练 VLA 带来多大性能提升
实验结果说明,在各类测试场景下,结合SOP的后训练方法均得到了显著的性能提升。相比预训练模型,结合SOP的HG-Dagger方法在物品繁杂的商超场景中实现了33%的综合性能提升。对于灵巧操作任务(叠衣服和纸盒装配),SOP 的引入不仅提升了任务的成功率,结合在线经验学习到的错误恢复能力还能明显提升策略操作的吞吐量。
结合SOP的HG-Dagger方法让叠衣服的相比HG-Dagger吞吐量跃升114%。SOP让多任务通才的性能普遍提升至近乎完美,不同任务的成功率均提升至94%以上,纸盒装配更是达到98%的成功率。
SOP性能提升
为了进一步测试真机SOP训练后VLA模型是否达到专家级性能,研究团队让SOP训练的VLA模型进行了长达36小时的连续操作,模型展现出了惊人的稳定性和鲁棒性,能够有效应对真实世界中出现的各种疑难杂症。
2. 机器人规模如何影响学习效率
智元使用了三种机器人队伍数量(单机、双机、四机配置),在同样的数据传送总量的基础上,进行了比较。实验结果表明,在相同的总训练时间下,更多数量的机器人带来了更高的性能表现。在总训练时间为3小时的限制下,四机进行学习的最终成功率达到了92.5%,比单机高出12%。
研究团队认为,多机采集可以有效阻止模型过拟合到单机的特定特征上。同时,SOP 还将硬件的扩展转化为了学习时长的大幅缩短,四机器人集群相比单机能够将模型达到目标性能的训练速度增至2.4倍。
SOP学习效率提升
3. 不同预训练规模下SOP 是否稳定有效?
研究团队把总量为160小时的多任务预训练数据分为了三组:20小时,80小时和160小时,分别训练一组初始模型后再进行 SOP。
研究发现,预训练的规模决定了基座模型和后训练提升的轨迹。SOP 能为所有初始模型带来稳定的提升,且最终性能与VLA预训练质量正相关。
同时,对比80小时和160小时实验效果,也可以明显注意到,在解决特定失败情况时,在轨策略经验带来了非常显著的边际效果。
SOP 在三小时的在轨经验下就获得了约30%的性能提升,而80小时额外人类专家数据只带来了4%的提升。这说明在预训练出现边际效应递减的情况下,SOP 能够高效突破VLA性能瓶颈。
SOP在不同预训练数据规模下的对比
三、未来展望
智元机器人的本次研究结果表明,执行与学习的系统级耦合对于后训练的成功而言,其重要性与底层算法不相上下。通过让机器人集群持续上传在线策略经验数据,并反向接收更新后的策略模型,SOP 框架将传统的阶段性微调模式,升级为可规模化扩展的闭环学习模式。
研究发现,在线策略修正产生的边际效用,显著高于新增离线数据的效用增益,这一结论印证了一个业内普遍共识:静态数据集无法完全预判部署后策略所触发的状态分布变化 。而SOP 则在系统层面,将这一结论转化为了可落地的技术方案。
尽管已展现出优异性能,SOP 目前仍需依赖人工干预或任务专属奖励信号开展训练。未来的重要研究方向在于,通过习得奖励模型或基于基础模型的任务成功检测技术,降低此类监督成本。
此外,两个亟待探索的开放性问题仍有待解答:
一是当前近乎线性的扩展效率能否延伸至规模更为庞大的机器人集群;
二是如何在实现新技能持续习得的同时,避免出现灾难性遗忘现象。
展望未来,智元机器人构想了这样一幅图景:机器人集群可依托实际部署过程中的经验数据,共同维护一套共享且持续迭代的策略模型。
从这个角度来看,机器人部署规模的扩大,等同于学习算力的扩充—— 每新增一台机器人,都会进一步加速策略模型的优化进程。
原文标题 : 定义下一代机器人训练?智元 SOP:VLA 模型真实世界分布式在线后训练的关键突破