出品:深蓝具身智能
在真实世界中,人类之所以能熟练地操作物体,是因为我们拥有一种“直觉物理”——
我们能在心里预测:杯子被推后会滑多远,绳子被拉会怎么变形。这种预测力来自于长期经验中形成的“内在世界模型”。
而对机器人而言,要具备同样的能力,必须学会——理解并预测物理交互的结果。
机器人必须掌握环境的完整状态信息——位置、速度、质量、摩擦系数……
然而在现实世界里,这些信息往往难以准确感知。因此,研究者提出了另一条路径:学习型动力学模型(Learning-based Dynamics Models,LBDMs)。
它不再依赖精确的方程,而是直接从传感器数据中学习“动作—结果”的映射。
这种方法能够捕捉复杂、难建模的因素,甚至能在仿真精度不足的场景中实现更快的预测。
今天这篇文章,我们基于一篇发表于 Science Robotics 的综述文章《A review of learning-based dynamics models for robotic manipulation》,一起系统回顾学习型动力学模型在机器人操作中的进展与未来。

动力学模型的三大基石
人类在完成复杂操作时,会在脑海中形成不同层次的“物理想象”——
比如用粒子去理解几何形状的细节(A);
用关键点去把握结构关系(B);
或以物体为单位理解多物体之间的交互(C)。

▲图1|学习型动力学模型正是试图让机器人也具备这种“预见结果”的能力,通过结构化状态表示去模拟人类的物理直觉©️【深蓝具身智能】编译
在机器人技术中,学习型动力学模型旨在利用结构化状态表示为机器人提供类似预测能力。
首先我们将学习型动力学模型拆解为三个核心模块:
感知模块(Perception Module)
负责从观测数据中估计环境状态,在部分可观测环境中,需要从历史观测序列中推断完整状态。
这一模块的难点在于:如何定义“最小但充分”的状态表示,使其既能表达任务关键信息,又不过度冗余。
动力学模块(Dynamics Module)
动力学模块的主要任务是学习状态转移函数,模型结构往往与状态表示紧密耦合:
例如,粒子-状态可用 GNN 建模,因其天然具备空间等变性;潜变量则适合 RNN 或 Transformer 结构以捕捉时间依赖。
控制模块(Control Module)
依据模型预测的未来状态生成控制信号,可输出末端位姿或关节力矩。控制策略既可以通过规划实现(如轨迹优化),也可通过策略学习得到。
三者共同构成了机器人“看-想-动”的闭环。
通过学习获得“物理预测力”整个流程可以分为两步:
(A)训练阶段:模型从交互数据中自监督学习
机器人首先在交互数据上训练动力学模型,由感知模块从观测中提取状态表示,并以自监督方式学习状态转移;

(B)在部署阶段:用于规划动作或生成新数据以持续改进策略
训练好的模型可用于下游控制任务——要么通过评估一系列动作轨迹进行规划,要么生成交互数据供策略学习使用。

▲图2|机器人从“看”到“想”,再到“动”的学习闭环©️【深蓝具身智能】编译

方法:感知物理空间并表示动力状态
机器人对于物理世界的感知以及对于动态的表示,现有方法分为五类。
每类对应不同的抽象层次与感知需求,接下来依次列举介绍。
像素级表示(Pixel-based Representations)
最直接的做法,是让模型直接在像素空间学习状态转移——本质上是一种动作条件视频预测。
典型的案例有通过端到端的光流预测,实现了推物体任务的规划控制。随着科技不断进步,这部分的研究逐渐扩展到工具使用及元学习自适应。
近年来,Transformer 和 Diffusion 模型被引入,用于捕捉长时依赖与多模态未来,这类模型的优势是端到端:无需显式状态估计,理论上可涵盖任意物理现象;
但劣势同样明显:
高维输入导致训练代价巨大;
容易出现“幻觉式预测”;
缺乏物理约束,在接触丰富的场景中难以保持一致性。
正因如此,许多研究者指出像素模型虽具普适性,但难以用于高频实时控制。
潜变量表示(Latent Representations)
为解决像素维度过高的问题,研究者提出在潜空间进行建模:先用编码器将观测压缩成向量,再预测下一个状态的观测向量表示。
潜空间的学习方式分为两类,分别是重建式和非重建式:
重建式(Reconstruction-based)
典型如 Embed-to-Control、VAE、RSSM,通过解码器确保潜变量保留足够的视觉信息。

▲E2C model
但这种方法可能将与任务无关的细节也编码进去,导致效率下降。
非重建式(Reconstruction-free)
直接用对比学习或逆动力学约束来保持潜变量的任务相关性。
例如使用对比估计学习可预测的潜表征;或者用逆动力学训练模型推测“导致状态变化的动作”。

▲图3|从像素到物体:不同层次的状态表示。学习型动力学模型可使用从“无结构”到“高结构”的多种表示形式:像素与潜变量对应端到端建模,而粒子、关键点和物体级表示则引入更强的结构先验。结构越强,模型的泛化能力越好,但对状态估计的要求也更高。这幅图形象展示了状态表示的连续谱,从无序像素到具有语义结构的世界建模©️【深蓝具身智能】编译
在动力学层面,潜变量模型可为确定性或概率性:
确定性模型(如 MLP、CNN)适合低维控制;
概率性模型(如 RSSM、Mixture Density Network)可表达多模态未来。
它们已成功应用于刚体、关节体、流体等多种操作任务中。
潜变量模型计算效率高、训练稳定,但普适性有限——任务特定的损失可能削弱跨任务泛化。
三维粒子表示(3D Particle Representations)
粒子表示显式编码三维结构,将物体建模为离散点集合。这种方法天然适合模拟可变形物体。
感知阶段,粒子通常由点云采样获得,比如通过多视图或 NeRF 重建可用于生成稠密体积,再采样为粒子;
在建模阶段,图神经网络(GNN)作为主流:可以通过动态图结构捕捉局部接触变化或者用于统一描述流体、刚体与可塑体。
部分研究也采用专用卷积(ConvSP、ConvSDF)建模粒子间作用。
粒子模型在精度和物理一致性上表现突出,尤其适用于面团、布料、颗粒等复杂介质。

▲ParticleFormer: A 3D Point Cloud World Model for Multi-Object, Multi-Material Robotic Manipulation
但缺点是感知难度高、计算量大,尤其在稠密点云或多物体环境中。
关键点表示(Keypoint Representations)
关键点模型以稀疏坐标集合表示物体的几何与语义结构。与粒子相比,它仅保留任务相关的特征点。
感知阶段的方法包括:
监督式标注:如在三维空间中定义类别关键点;
无监督学习:如通过重建损失自发现关键点。
动力学建模方面,关键点可视为图节点,用 GNN 或 MLP 预测交互变化:
比如用 GNN 实现基于关键点的 MPPI 控制;
或者在柔性材料(比如布料)操作中引入关键点-图动力学。

▲KETO: Learning Keypoint Representations for Tool Manipulation
这种表示紧凑高效、泛化性强,适合刚体或低维柔体任务,但其稳定性受遮挡与检测一致性限制,需要强感知模块支持。
物体为中心的表示(Object-centric Representations)
人类倾向以“物体”为单位理解场景,这也是当前具身智能比较喜欢的表达方式。
机器人用离散物体及其关系作为建模单元。
该类方法通过实例分割、神经渲染或逆渲染等方式获得对象级特征。而动力学建模多采用图网络或消息传递机制(如 Interaction Network 和 Neural Physics Engine)。

▲Object-Centric Representations Improve Policy Generalization in Robot Manipulation这种方式在多物体交互、堆叠、重排任务中表现突出。优点:结构化强、可组合泛化;缺点:对感知要求极高,实例分割与跟踪成为瓶颈。

从预测到行动:学习型动力学与控制的结合
在机器人操作中,学习型动力学模型的价值最终体现在“能否指导行动”。
我们可以将控制分为两类路径。
运动规划 (Motion Planning)
学习到的动力学模型可以替代或补充解析模型,用于规划与轨迹优化。
路径规划:通过 RRT、PRM 等方法搜索无碰路径;
轨迹优化:利用 CEM 或 MPPI 等采样法评估多种动作序列,再选最优方案;
梯度优化:借助模型可微特性直接反传调整动作。

▲Motion Planning Diffusion: Learning and Planning of Robot Motions with Diffusion Models
策略学习 (Policy Learning)
另一类方法是直接从模型模拟的转移数据中学习策略。
模型可提供样本形式的数据,通过逆动力学模型直接学习从当前到目标的动作;或者采取基于 RL 的策略学习,利用模型模拟加速训练,如 Dyna 架构。
但若模型不精确,策略可能“利用”模型缺陷而导致现实失败,因此通常需要在真实数据上再微调。

▲图4|让机器人真正“动起来”的六类操作任务:学习型动力学模型已在多种操作场景中展现出强大能力,包括:(A)物体重定位、(B)绳索操作、(C)布料操作、(D)橡皮泥/塑性体操作、(E)多物体协同操作,以及(F)工具辅助操作。©️【深蓝具身智能】编译
这些例子覆盖了刚体与柔体、单物体与多物体,展示了从“理解物理”到“掌控物理”的全面进步。

未来展望:从专用模型到“基础动力学模型”
随着当前大模型的发展,AGI已经成为所有研究者的最终目标,动力学模型也是如此。
许多研究者认为可以构造一个基础动力学模型,来理解普遍存在的动力,就像给机器人一本“物理百科全书”,让机器人内在的具备对于交互空间的通用物理知识。
在感知层面
机器人需要在部分可观环境中建立对世界的稳定理解。
现实操作往往伴随遮挡、未知物理属性和感知噪声,当前依赖历史信息或主动探索的感知机制虽然能一定程度上缓解这些问题,但在复杂多物体场景中仍存在不稳定。
多模态融合被视为一种关键路径,视觉与触觉、声音等信号的联合建模能够弥补单一模态的局限,但不同模态间的时空对齐、频率差异和分布偏移仍是主要挑战。
在动力学学习方面
模型需要具备更强的鲁棒性与泛化能力,在庞大的状态—动作空间中保持稳定预测。
研究者正在探索结合概率建模与物理先验的方法,以在数据有限的情况下提升可靠性。与此同时,借鉴大模型理念的“基础动力学模型”开始浮现——通过大规模交互数据构建可泛化的世界模型,使机器人具备通用的物理理解能力。
随着视觉语言模型在常识物理推理上的进步,未来的动力学学习也有望从中引入材料、摩擦、刚度等物理先验,进一步减少对真实数据的依赖。
此外,新型三维表示方式(如基于高斯体的3D Gaussian Splatting),正成为动力学建模的新方向,它在保持连续表面的同时显著提升了计算效率,为从粒子级到场景级的建模提供了新的可能。

▲3D Gaussian Splatting in Robotics: A Survey
在控制与推理层面
研究正从单纯的轨迹优化迈向智能决策。
未来的系统可能采用分层控制结构:上层进行语义层面的任务规划,下层基于动力学模型执行精细控制;同时引入不确定性评估机制,使控制具备风险感知能力。
结合可微动力学模型与强化学习的策略更新机制,也被认为是提升效率与稳定性的有效途径。

总结
从早期的基于方程的刚体推算,到如今的端到端学习式物理预测,动力学模型的发展,让机器人从“反应者”变为“预见者”。
这篇文章,我们从视觉感知到控制策略、从像素到物体层级,系统描绘了学习型动力学模型的技术版图,也揭示了具身智能的核心命题——
让机器人像人一样,通过学习理解并预测世界的变化。
