作者:李鑫 出品:具身智能大讲堂
在机器人领域,通用型机器人策略早已展现出强大的潜力,通过在大规模多样化数据集上训练,它们能在未见过的环境、场景和物体中完成一系列任务。但一个棘手的问题始终存在:当这些"全能机器人"需要适配新任务时,少量演示数据的微调往往会让它们"偏科",不仅忘了之前掌握的通用技能,甚至连新任务的变种场景都无法应对。

近日,加州大学伯克利分校的研究团队提出了一种名为 RETAIN 的简单却高效的解决方案,通过在权重空间中融合预训练模型和微调模型的参数,让机器人既能熟练掌握新技能,又能保留通用能力,还能稳健应对新任务的各种变种场景。
1►RETAIN核心思路通过参数融合破解机器人微调困局
RETAIN 的核心思路是不直接使用微调后的模型,而是将预训练模型和微调模型的权重进行线性插值融合。

简单来说,就是为预训练权重和微调权重分别设置一个权重系数,通过调整系数平衡两者的影响,最终得到融合后的模型参数。这个看似简单的操作,背后蕴含着巧妙的设计逻辑:预训练模型拥有强大的通用泛化能力,能应对各种未知场景;微调模型则掌握了新任务的特定技能,能精准完成目标任务。通过权重融合,相当于让模型同时"记住"通用知识和新技能,实现了两者的优势互补。

传统微调容易出现过拟合问题
为了进一步提升性能,研究团队还提出了两个优化方向:
1. 协同微调
如果预训练数据集可访问,在微调时不仅使用新任务的演示数据,还混入部分预训练数据。这种协同微调能让微调模型本身就保留更多通用能力,再结合参数融合,会比仅用新任务数据微调后融合的效果更好。
2. 模态特定融合
现代通用机器人策略多为VLA模型,由视觉编码器、语言模型骨干和动作专家模块组成。研究发现,不同模态的参数对融合效果的影响不同,因此可为每个模态设置独立的融合系数,进一步优化性能。
更令人意外的是,实验表明:仅融合语言模型骨干的参数,就能达到融合全部参数的相近效果。这一发现为降低计算成本提供了重要启发,也说明语言模块在机器人任务理解和泛化中扮演着核心角色。
验证:真实与仿真环境的双重突破
研究团队在真实机器人(DROID)和仿真环境(LIBERO)中进行了全面验证,涵盖多种任务类型和场景变化,结果令人瞩目。
实验设置
•真实机器人任务:选用 Franka 7 自由度机械臂,设计了两项任务——白板擦拭(50 条演示数据)和盘子入架(100 条演示数据)。测试场景包括同分布场景(与演示数据一致)和变种场景(改变背景、物体实例、相机视角等),同时评估 44 项通用任务的性能保留情况。
•仿真任务:在 LIBERO 环境中选择三项任务——锅放炉灶、杯子放盘子、物品入篮,每项任务约 45 条演示数据,测试场景包括物体位置变化、添加干扰物、背景替换等变种情况,同时评估 20 项预训练阶段的通用任务。
•对比基线:包括传统微调、协同微调、低秩适配(LoRA)、冻结语言模型微调和平从零训练等主流方法。
2►实验结果:
1. 新任务泛化能力大幅提升
在真实机器人的变种场景测试中,传统基线方法的成功率普遍在 30%-50%,而 RETAIN 及其优化版本能达到 60% 以上(盘子任务)和接近 80%(白板任务),甚至接近同分布场景的性能水平。这意味着 RETAIN 让机器人真正"学会"了新技能,而非死记硬背演示场景。

在仿真环境中,尽管基线方法在同分布场景能达到近乎完美的性能,但在变种场景中仍存在明显差距,而 RETAIN 依然能稳定提升泛化能力。研究团队发现,这种提升效果与预训练模型的通用能力强相关——DROID 所用的预训练模型基于 76k 条多样化轨迹训练,泛化提升更显著;而 LIBERO 预训练模型仅基于 5.3k 条轨迹,提升幅度相对较小。
2. 通用能力完美保留
传统微调方法会导致机器人"忘本",通用任务性能大幅下降。而 RETAIN 融合后的模型在通用任务评估中,性能与原始预训练模型几乎持平。特别是结合协同微调的版本,在保留通用能力的同时,新任务性能也更优。

持续任务适应
这一特性让 RETAIN 具备了持续学习的基础——机器人可以不断通过"微调+融合"的方式学习新技能,而不会丢失之前掌握的能力。实验验证了这一点:依次让机器人学习盘子入架和白板擦拭任务,RETAIN 融合后的模型在两项任务的同分布和变种场景中均保持高成功率,而传统协同微调方法在第一项任务上的性能大幅衰退。
3. 性能随预训练数据量递增
研究团队通过控制预训练数据量发现,RETAIN 的效果与预训练模型的通用能力正相关。预训练数据越多,模型的通用知识越丰富,融合后在新任务变种场景中的性能越好。当使用包含额外物理智能数据集的预训练模型时,RETAIN 在变种场景的性能几乎与同分布场景持平,展现出强大的可拓展性。
3►关键发现:参数融合的深层逻辑
除了性能提升,研究还揭示了参数融合的几个重要特性:
1.融合系数的影响:融合系数并非越大越好(纯微调模型)或越小越好(纯预训练模型),在 0.25-0.75 之间能取得最佳平衡,且在真实环境中对系数的取值相对稳健,无需过度精细调参。
2.参数重要性差异:语言模型骨干的参数对融合效果影响最大,视觉编码器和动作专家模块则可更多保留微调后的参数,这为针对性优化提供了依据。
3.微调路径的非线性:通过 PCA 分析发现,模型微调过程中的参数变化是高度非线性的,而参数融合相当于在预训练和微调模型之间开辟了一条新的线性路径,找到的是一个既保留通用能力又掌握新技能的更优解。
4►结语与未来:
尽管 RETAIN 表现出色,但研究也指出了其局限性:目前尚未完全理解参数融合为何能带来泛化提升的深层理论机制,仍需更多理论研究支撑;融合系数的选择虽相对稳健,但尚未形成通用的启发式选择方法,需要根据具体任务微调。
未来,研究团队计划在更强的预训练模型上验证 RETAIN 的效果,并探索多任务连续融合的更优策略,同时进一步简化参数融合的实现方式,降低应用门槛。
论文地址:https://arxiv.org/pdf/2512.08333
项目地址:http://retain.yajatyadav.com/