机器人控制新突破:核心优势或与生成无关

机器人控制新突破:核心优势或与生成无关

2025年12月22日 17:36
本文共计2757个字,预计阅读时长10分钟。
来源/具身研习社 责编/爱力方

作者:李鑫 出品:具身智能大讲堂

机器人灵巧操作领域,生成式控制策略(GCP)凭借在复杂任务中的出色表现,成为近年来的研究热点。无论是家具组装、食品制备还是精密制造,基于流模型、扩散模型的生成式策略都被认为是实现长 horizons 任务的关键。业界普遍认为,GCP 的优势源于其捕捉多模态动作分布、表达复杂行为的能力。

但卡内基梅隆大学、麻省理工学院与丰田研究院联合团队的最新研究,却对这一主流认知发起了挑战。他们通过28个行为克隆基准的系统实验证明:GCP 的核心优势并非分布学习或多模态捕捉,而是随机注入与监督式迭代计算的组合。这一发现不仅颠覆了对生成式控制的传统理解,更促成了研究团队提出了仅需两步迭代的轻量化策略,性能可与复杂流模型媲美。

1►打破迷思:生成式控制的五大假说均不成立

研究团队首先针对业界关于 GCP 优势的五大核心假说,展开了系统性验证。这些假说包括:在像素级控制上表现更优、能捕捉训练数据中的多模态、通过迭代计算获得更强表达能力、借助随机数据增强实现表征学习、训练稳定性与扩展性更优。

为确保实验的公平性,团队采用了独特的实验设计:让回归控制策略(RCP)与 GCP 使用完全相同的架构(如 Chi-Transformer、Sudeep-DiT、Chi-UNet 等),仅通过设置噪声水平为零将 GCP 转化为 RCP。这种架构对齐的对比方式,避免了此前研究中因模型结构差异导致的结论偏差。

实验结果令人意外:在绝大多数状态型、图像型和视觉-语言-动作(VLA)基准测试中,GCP 与 RCP 性能持平,仅在少数需要高精度操作的任务(如精密插入)中出现性能差距。更关键的是,所谓的“多模态优势”并不存在——通过 t-SNE 可视化发现,即使在对称状态或高模糊性场景中,GCP 生成的动作也未呈现明显的多模态聚类;将随机采样替换为平均动作后,GCP 性能仅轻微下降,进一步证明训练数据中并不存在显著的多模态结构。

对于“迭代计算提升表达能力”的假说,研究团队通过理论证明与实验验证双重否定。理论上,当动作分布为对数凹分布时,GCP 的 Lipschitz 常数(衡量函数表达能力的关键指标)仅比 RCP 高一个常数因子,无法实现任意复杂度的函数表达;实验中,在拟合高频率函数 y=sin1x 时,GCP 与 RCP 均因网络容量限制未能捕捉高频结构,且 GCP 仅将 RCP 的平均偏差转化为随机方差,并未真正提升表达能力。

此外,实验还发现 GCP 与 RCP 的行为多样性相当(在 FRANKA-KITCHEN 任务中,两者的任务完成顺序多样性无显著差异),随机数据增强带来的表征学习优势也不明显。这意味着,此前被广泛认可的 GCP 优势假说,大多是“噪声带来的错觉”。

2►解构 GCP:三大核心组件与关键发现

为找到 GCP 优势的真正来源,研究团队提出了生成式控制策略的三维分类框架,将其拆解为三个核心组件:

•C1:分布学习(Distributional Learning),即学习观测到动作的条件分布;

•C2:随机注入(Stochasticity Injection),训练过程中注入噪声以改善学习动态;

•C3:监督式迭代计算(Supervised Iterative Computation),通过多步迭代生成输出,且每一步都有监督信号。

基于这一框架,团队设计了一系列消融实验,逐一验证各组件的作用。结果发现:单独的 C2(仅注入随机噪声)或 C3(仅进行监督式迭代)均无法超越传统 RCP;只有当 C2 与 C3 结合时,才能实现与 GCP 相当的性能。而被寄予厚望的 C1(分布学习),对性能的贡献微乎其微。

为进一步验证这一结论,团队提出了极简迭代策略(MIP)。这一轻量化策略仅包含两步迭代:训练时在第二步注入随机噪声,推理时完全确定性执行,既不涉及复杂的分布建模,也无需大量迭代步骤。实验显示,MIP 在状态型、像素型和 3D 点云型任务中,性能均与流模型 GCP 基本持平,且在部分任务中优于蒸馏后的捷径模型。

更值得关注的是,MIP 的计算效率远超传统 GCP:仅需 2 次函数评估(NFE),而流模型通常需要 9 次以上;训练时无需学习复杂的分布,也无需多阶段蒸馏,训练成本仅为一致性模型等捷径方法的一半。在 Tool-Hang、Transport 等高精度任务中,MIP 的平均性能甚至超过了 CTM(一致性轨迹模型)等专门优化的少步策略。

3►关键机制:流形贴合而非表达能力

为什么 C2 与 C3 的组合能带来性能提升?研究团队发现,核心机制并非提升了模型的表达能力,而是增强了“流形贴合”(manifold adherence)特性——即模型在分布外(OOD)状态下,仍能生成符合专家行为流形的合理动作。

传统 RCP 虽然在训练集上的重构误差与 GCP、MIP 相当,但在受到扰动的分布外状态下,生成的动作容易偏离专家行为流形,导致闭环控制中的误差累积。而 GCP 与 MIP 通过监督式迭代计算,能够逐步修正动作预测,使其贴合专家行为形成的低维流形;随机注入则通过扩大训练过程中的覆盖范围,缓解了迭代步骤中的误差累积问题,让迭代修正更加稳健。

实验数据显示,在分布外状态下,MIP 与流模型的离流形误差(off-manifold error)分别仅为 0.043 和 0.032,远低于 RCP 的 0.058;在 Push-T 任务中,随着迭代步数增加,流模型生成的轨迹更倾向于贴合 T 形物体的侧面移动,而非直接碰撞,充分体现了流形贴合带来的优势。

此外,研究还发现架构设计对性能的影响远超“生成式 vs 回归式”的选择。在部分任务中,配备现代骨干网络(如 Transformer、UNet)的 RCP 性能可媲美甚至超越 GCP;而模型容量与动作块大小(action chunk size)等超参数,也对性能有着显著影响。这意味着,未来机器人控制策略的优化,应更注重架构设计与迭代机制的结合,而非盲目追求复杂的分布建模。

4►结语与未来:

长期以来,生成式建模在视觉、文本领域的成功,让研究者自然地将“分布拟合”作为核心目标,但机器人控制的本质需求是“生成有效动作”而非“还原数据分布”,这种目标差异导致了核心优化方向的错位。

MIP 的成功证明,无需复杂的生成式架构,仅通过简单的“随机注入 + 监督式迭代”组合,就能实现与先进 GCP 相当的性能。这为工业界开发高效、低成本的机器人控制策略提供了新路径——在不需要多模态动作的场景中,轻量化的 MIP 不仅能降低计算成本,还能简化训练流程,更适合实际部署。

论文地址:https://arxiv.org/pdf/2512.01809

项目地址:https://simchowitzlabpublic.github.io/much-ado-about-noising-project/

来源:颠覆认知!机器人生成式控制的核心优势,竟与“生成”无关? | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯