作者:李鑫 出品:具身智能大讲堂
让机器人完成“把胡萝卜放进盘子”这类日常操作,远不止理解语言指令那么简单。它必须精准把握物体的运动轨迹、受力特点,甚至轻微的形态变化规律,这些都属于机器人操作的核心物理认知范畴。一直以来,VLA模型始终绕不开一个瓶颈,这类模型的预训练依赖静态图文数据,完全缺乏时间维度的动态信息,导致物理动力学知识只能从零学起。这也导致机器人掌握技能时,必须依赖海量且成本高昂的专家演示数据,严重限制了其落地效率。

针对这一问题,微软苏黎世研究院、ETH苏黎世与mimic robotics联合团队提出了全新的Video-Action Model(VAM)模型。该方案的核心的是直接复用预训练视频模型中沉淀的动态知识,无需让机器人重新摸索物理规律。从实际的效果上来看,这一方法能让机器人在模拟及真实场景的操作任务中,数据效率提升10倍、收敛速度加快2倍。
1►让视频模型成为机器人的"物理老师"
研究团队提出的mimic-video模型,核心 insight 是将机器人控制直接建立在预训练视频模型的 latent 表示上,而非静态图文表示。这种设计让视频模型成为机器人的"物理老师",提前掌握的动态知识可以直接迁移到操作任务中,从而将机器人需要学习的内容简化为纯粹的底层控制。

mimic-video是一种新型的视频动作模型 (VAM),它将机器人策略建立在预训练的视频模型之上。
双流匹配架构:分离规划与控制
mimic-video的架构由两个条件流匹配(CFM)模型组成,实现了长时规划与底层控制的解耦:
1.预训练视频 backbone:采用开源的Cosmos-Predict2模型(20亿参数的 latent 扩散Transformer),输入初始观测图像和语言指令后,在紧凑的 latent 空间中预测未来轨迹。这个过程不需要生成完整的像素级视频,而是提取中间层表示作为视觉规划信号。
2.轻量化动作解码器:作为逆动力学模型(IDM),接收视频模型的 latent 表示和机器人的本体感受状态(如关节位置),输出底层电机指令。解码器专注于将视觉规划转换为具体动作,无需建模复杂的物理规律。

研究团队使用预训练的视频生成骨干网络(Nvidia Cosmos-Predict2)来实例化框架,该网络提供了从大规模视频数据中学习到的丰富的物理动力学先验信息。
这种分离设计的优势十分显著:视频 backbone 负责处理多模态的长时规划,利用预训练的物理知识生成合理的动作序列蓝图;动作解码器则专注于单一模态的控制问题,大大降低了学习难度。更重要的是,视频 backbone 只需通过低秩适配器(LoRA)进行轻量级微调,无需在稀缺的机器人数据上重新训练,充分保留了预训练的通用知识。
部分去噪策略:兼顾效率与性能
为了解决视频生成的计算成本问题,研究团队提出了关键的部分去噪策略。在推理时,视频模型不需要完成完整的去噪过程(从噪声生成清晰视频),而是在中间流时间 τv 处停止,提取部分去噪的 latent 表示。
这个设计看似反直觉,却带来了双重好处:一方面,避免了完整视频生成的高昂计算开销,让实时控制成为可能;另一方面,保留一定噪声的 latent 表示可以缓解分布偏移问题——完全去噪的视频可能与训练数据分布不一致,而适度的噪声反而能提升模型的鲁棒性。实验表明,当 τv 接近1(高噪声状态)时,模型不仅推理速度最快,还能达到最佳性能。
2►实证验证:从模拟到真实场景的全面突破
研究团队在三类典型任务上对mimic-video进行了全面评估,涵盖模拟基准、真实世界单臂操作和双灵巧手协作,均展现出超越现有方法的性能。

研究团队通过Franka Emika Panda 机械臂和 16 自由度仿人灵巧手的真实双机械臂系统上,对 mimic-video 进行训练与评估。
模拟场景:数据效率碾压传统VLA

在SIMPLER-Bridge基准测试中,mimic-video在"放置胡萝卜"、"堆叠积木"等四个任务上平均成功率达到46.9%,超过了OpenVLA、Octo等主流模型。更令人印象深刻的是,当针对每个任务优化τv参数后,平均成功率提升至56.3%,在"茄子放置"任务上更是实现了100%成功。

在LIBERO基准的多任务测试中,mimic-video仅通过任务特定数据从头训练,就在空间任务、物体任务和目标任务上分别达到94.2%、96.8%和90.6%的成功率,平均93.9%,大幅超越了同样从头训练的π0.5-style VLA(85.9%),甚至接近部分基于通用模型微调的方法。
真实世界:少数据实现灵巧双手机械臂操作
在最具挑战性的真实世界双灵巧手任务中,mimic-video展现了惊人的样本效率。实验使用配备16自由度"mimic"手的Panda机械臂,完成两个长时任务:包裹分拣(抓取-传递-放置)和卷尺收纳(抓取-收纳-移箱)。

关键在于,动作解码器仅使用极少的任务特定数据训练——分拣任务仅用1小时33分钟的演示(512个episode),收纳任务仅用2小时14分钟(480个episode),却实现了72.0%和93.0%的成功率。相比之下,依赖多视角相机的DiT-Block Policy在同样任务上的成功率仅为42.6%和74.1%。更值得注意的是,mimic-video仅使用单视角 workspace 相机就突破了遮挡带来的视觉不确定性,这得益于视频模型对物体运动的预测能力。
数据效率:10%数据达到同等性能
数据效率测试更直观地展现了mimic-video的优势。在LIBERO任务中,当仅使用10%的训练数据时,mimic-video的动作解码器就达到了VLA模型使用100%数据的最高成功率。即使将数据量减少到每个任务仅1个episode(仅2%的原始数据),mimic-video仍能实现77%的平均成功率,与传统扩散策略模型相当。

在 LIBERO 基准测试中,mimic-video 的样本效率(左图)和收敛速度(右图)分别展示了其性能和收敛速度。与同类传统 VLA 相比,mimic-video 的样本效率提高了 10 倍。即使将数据集规模缩减至每个任务仅一个回合(占动作数据的 2%),其成功率仍能达到 77%。此外,尽管 VLA 基线在 FAST 预训练期间已接触过特定任务的动作数据,mimic-video 的收敛速度仍是 VLA 基线的两倍,且渐近成功率更高。
同时,mimic-video的收敛速度也大幅领先——在相同训练步数下,其成功率始终高于VLA模型,且更早达到性能上限。这意味着机器人可以用更短的时间完成训练,进一步降低部署成本。
3►关键发现:高保真视频并非必需
研究团队通过实验发现了一个反直觉的重要结论:高保真的视频重建对于机器人控制并非必要。在SIMPLER-Bridge环境中,当τv=1(几乎是纯噪声的 latent 表示)时,模型性能最佳;而当τv趋近于0(完整去噪的清晰视频)时,性能反而下降。

这背后的原因有两点:一是完全去噪的视频可能与训练数据存在分布偏移,导致动作解码器收到异常信号;二是视频模型在去噪后期的中间表示信息价值降低——当输入已经接近目标状态时,模型层倾向于保持输入不变,反而丢失了关键的动力学信息。实验显示,动作重建误差在τv≈0.4时最小,但在实际自主控制中,中等噪声水平的表示反而能提供更鲁棒的指导。
这一发现具有重要的实践意义:它证明机器人需要的是视频中蕴含的动态规律,而非像素级的视觉细节,这也为后续模型优化指明了方向——无需追求高保真视频生成,重点应放在捕捉核心动力学特征上。
4►结语与未来:
尽管mimic-video已经取得了显著突破,但研究团队也指出了进一步优化的方向。目前模型依赖单视角视频 backbone,限制了空间推理能力和对遮挡的鲁棒性,未来将探索原生多视角视频模型,以更好地处理复杂操作场景中的视觉不确定性。
此外,当前的实验主要针对特定机器人平台,下一步将尝试训练跨具身性的统一模型,充分释放视频基础模型的通用能力。同时,扩展任务覆盖范围,将这种视频驱动的控制范式应用到更多样的操作场景中,如柔性物体处理、精密装配等,也是未来的重要研究方向。
论文地址:https://arxiv.org/pdf/2512.15692
项目地址:https://mimic-video.github.io/