世界模型(World Model)是机器人理解环境的核心工具——它通过观察视频学习物理规律,然后像人类一样在“脑海”中推演未来。过去几年,基于纯视觉的世界模型在自由空间运动(如伸手、移动)上表现惊艳,可一旦进入接触密集型的任务,问题就接踵而至。
你是否设想过这样的问题:机器人伸手抓取积木,在手遮挡住物体的那一瞬间,积木在它的“脑海”里消失了;或者机械臂明明没有碰到抹布,抹布却自己飘了起来?这不是科幻片里的超能力,而是纯视觉世界模型在接触任务中常见的“幻觉”。
这些“幻觉”源于一个根本缺陷:视觉只能看见表面,却感受不到力。在接触发生的瞬间,视觉信号往往被遮挡或模糊,而触觉——这个人类最基础的感知方式——恰恰能提供关键的局部物理信息。
人类之所以能稳稳地端起一杯水、轻柔地擦拭桌面,靠的不仅是眼睛,还有指尖传来的触感——我们知道杯子是否被握紧,知道抹布是否接触了污渍。现在,科学家们正为机器人赋予这份“触感”,让机器人能真正“感受”到充满物理接触的真实世界。
一、 VT-WM破解接触物理难题
世界模型是机器学习赋能机器人的核心范式,能让机器理解物理世界并在“想象”中规划行为。其中,纯视觉世界模型虽在空间推理、机器人运动学建模上具备一定潜力,可完成简单的自由空间运动规划,却存在难以逾越的技术短板。
例如,在抓取、推送、擦拭、堆叠等高接触操作任务中,纯视觉模型的缺陷暴露无遗:外置相机无法捕捉物体交互的力信息,一旦出现物体遮挡、接触状态模糊的情况,便极易产生物体消失、无外力瞬移、布料非接触形变等违背物理规律的“幻觉”,直接导致机器人无法完成精准的手-物交互。究其原因,是视觉仅能提供机器人运动学与场景的全局上下文,却无法揭示关键的物理接触状态。
而触觉感知恰好能补充这一缺失的局部信号,精准捕捉手部与物体间的真实交互情况,让模型具备“客体持久性”(Object Permanence)认知与受力驱动运动建模能力。
基于此,来自华盛顿大学与Meta AI 的跨机构联合研究团队提出了多任务视觉-触觉世界模型(VT-WM)—— 将视觉与触觉深度融合,让世界模型不仅能“看”,还能“摸”。该模型将世界模型从纯视觉想象拓展至能直接建模接触交互的多模态范式,通过融合视觉全局信息与触觉局部接触信号,为机器人- 物体交互建立起接触层面的物理约束,让机器人的“想象”锚定在真实的接触物理规律之上。
研究者在灵巧手上的每个指尖安装了Digit 360触觉传感器(一种基于视觉的触觉传感器,通过拍摄弹性体形变感知接触),并采用Sparsh-X和Cosmos编码器分别提取触觉和视觉特征。
基于“想象”的世界模型规划:V-WM VS VT-WM
上图场景显示:在堆叠蓝色方块时,当手抓住方块移动,V-WM(纯视觉模型)可能让方块“消失”,但VT-WM通过持续的触觉反馈,能牢牢记住方块的存在——即使它被手完全遮挡。在释放瞬间,方块会准确地出现在黄色方块上方。这就是心理学中的“客体永久性”—— 即便物体从人的视线中消失(被遮挡、移走、隐藏),个体依然能意识到该物体并非不存在,而是依然客观存在于某个空间位置的认知能力。
在真实机器人零样本实验中,VT-WM 将高接触任务规划成功率最高提升35%,还能仅靠少量演示数据快速适配全新任务,为机器人高接触操作提供了更可靠的多模态解决方案。
二、VT-WM 如何融合视觉与触觉?
VT-WM的核心目标,是解决多模态感知融合的关键难题,通过视觉+触觉的双模态信息,生成一致、准确的未来状态预测,为机器人规划提供可靠依据。
1. VT-WM模型构成
整个模型由视觉编码器、触觉编码器、自回归预测器三大核心模块构成,配合专属的训练方式与规划方法,实现了双模态信息的高效融合与应用。
1)视觉编码器:从外部视角视频中提取隐状态,精准表征机器人及所处环境的全局信息,为模型提供宏观的场景与运动学上下文;
2)触觉编码器:将触觉传感器采集的高频接触反馈压缩为紧凑状态,聚焦突出力场、滑移、位姿变化等关键物理交互信息,填补视觉的局部感知空白;
3)自回归预测器:作为前向动力学模型,将视觉隐状态、触觉紧凑状态与机器人控制动作融合后,精准估计下一时刻的双模态状态。其核心优势是能区分视觉上完全一致但接触状态不同的场景—— 比如机械手靠近杯子的相同画面,触觉信号显示接触则预测杯子被抬起,无接触则预测杯子保持静止,这一能力正是高接触任务规划的关键。
VT-WM世界模型架构
为了高效处理多模态特征,预测器采用12层 Transformer 架构,设计了时空自注意力与基于交叉注意力的动作条件注入两种核心机制:
前者先通过空间注意力实现同一时间步特征交互,再通过时间注意力追踪特征时序变化,在捕捉局部动态与全局上下文的同时,大幅降低计算复杂度;
后者则在每个自注意力模块后,将视觉- 触觉特征与动作特征进行交叉注意力计算,让机器人的控制指令深度融入预测过程,实现隐状态的迭代优化。
2. VT-WM模型训练
该研究中的视觉-触觉世界模型总参数量为1.73亿,其中参与训练的参数为0.96 亿。模型采用AdamW优化器进行优化,参数为β1=0.9、β2=0.95,权重衰减为0.01。
VT-WM的训练围绕视觉、触觉、动作三类输入展开,充分考虑了双模态的信号特性,让模型能精准捕捉视觉 - 触觉融合的动力学规律:
视觉输入为1.5 秒的外部视角视频片段(6帧/秒,共 9 帧,分辨率 320×192),使用 Cosmos 逐帧编码。
触觉输入为每个Digit 360 传感器(共4个)采集2 帧数据,覆盖最近 0.16 秒的时间窗口。时域频率更高、更具局部性的触觉信息,与视觉传感器提供的全局、低帧率上下文信息形成互补。
动作输入包含机器人本体状态变化与手爪开合状态,将30Hz 的动作序列以5 帧为一组进行分块,并把整段状态增量输入预测器,让预测器能够同时建模外部场景与内部执行历史。
模型训练目标则融合了教师强制损失(teacher forcing)与采样损失:
教师强制损失基于真实上下文的单步预测,提供密集监督信号与稳定梯度;
采样损失通过自回归采样H步(通常取3-5步)的未来状态进行训练,以提升长时序生成效果。
3. 基于“想象”的规划
VT-WM 的预测器具备动作条件化特性,可作为模拟器嵌入交叉熵方法(CEM)中完成规划,整个过程以视觉为驱动目标,触觉则通过提升模型推演可靠性,间接赋能规划效果:
1)在每一步,规划器会在时长H的范围内采样一组动作序列。针对每条动作序列,预测器以自回归方式生成未来隐状态。
2)在实际应用中,以“预测的最终视觉隐状态与目标图像隐状态之间的距离” 作为代价函数为每条轨迹打分。
3)最后,CEM选取最优的一部分序列更新采样分布,迭代收敛后在真实机器人上开环执行。
触觉的作用是提升学习得到的世界模型的可靠性,从而间接改善规划效果:
训练过程中的触觉反馈使世界模型能够捕捉仅靠视觉难以推断的接触物理特性。
在生成推演序列时,初始状态中的触觉信息有助于区分视觉上完全相同的观测(例如判断机器人是否已与物体接触)。
触觉所带来的上述效果使得模型能够生成更合理的未来想象与更准确的代价评估,最终实现更高质量的规划。三、实验验证
为了验证VT-WM 的性能,研究团队以纯视觉世界模型(V-WM)为对照组,在 Franka Panda 机械臂 + Allegro Hand 灵巧手的硬件平台上,开展了接触感知、零样本规划迁移、下游任务泛化三大维度的实验,全面验证了VT-WM 的技术优势。
1. 接触感知:“客体持久性”性能提升33%,物理规律符合度提升 29%
接触感知实验从客体持久性(Object Permanence)、因果顺应性、动作可控性三个核心维度,评估模型对运动动力学的捕捉能力:
1)客体持久性:该指标用于衡量模型在物体被暂时遮挡时,仍能保持对物体存在性与状态一致性表征的能力。
研究人员评估物体在重度遮挡(如抓取过程中)是否仍被正确表征,以及在重新显露时能否以正确状态出现。比如方块堆叠任务中,当蓝色方块在移动与放置过程中被手部遮挡时,VTWM 能够保持对其的表征;在松开后,方块会在想象场景中重新出现在黄色目标方块上方的正确位置。
VT-WM世界模型 —— 客体持久性指标
在定量评估中,研究者用CoTracker跟踪物体关键点,计算想象轨迹与真实轨迹的归一化弗雷歇距离(距离越小,一致性越强)。结果显示:VT-WM 在5个任务中将归一化弗雷歇距离降低 18%-47%,整体平均下降约33%,生成推演结果的物理一致性显著提升。
2)因果顺应性:这一指标用于评估模型预测的物体状态变化,是否是机器人动作所导致的物理上合理的结果。一个具备因果顺应性的模型能够保证:物体在未受外力作用时,状态保持不变。
例如,若机械手悬停在抹布上方且未发生接触,合理的世界模型应预测抹布保持静止;反之,不具备因果顺应性的模型可能会错误地让抹布随手的运动发生形变。评估因果顺应性对于构建符合物理规律、尊重接触动力学且避免不合理伪影的世界模型至关重要。
在实验中,研究者使用CoTracker 计算场景中不受任何外力、本应保持静止的物体上关键点的轨迹误差。同时,仍以真实轨迹与模型推演轨迹间的归一化弗雷歇距离作为评价指标。弗雷歇距离越大,说明世界模型对这些静止物体的位置或形变产生了幻觉式变化,违背了牛顿第一定律等基本物理规律。
VT-WM世界模型 —— 因果顺应性指标
实验结果表明:视觉-触觉世界模型的性能优于纯视觉世界模型。VT-WM 在放置水果、推动水果、抹布擦拭任务中分别实现了 43.6%、16.4%、66.1% 的相对降幅,在方块堆叠上有小幅提升,在马克笔涂鸦上略有下降。在所有任务中,VT-WM 将这种幻觉式运动平均减少约29%,表明其在多数场景下具备更强的因果顺应性。
3)动作可控性:通过对简单、解耦的动作指令下的推演结果进行可视化,从定性角度研究动作可控性。这些指令包括末端执行器沿笛卡尔坐标轴移动(±x、±y、±z)以及手爪开合。动作条件以机器人本体状态增量的形式输入 VT-WM。
VT-WM世界模型 —— 动作可控性
实验结果显示:VT-WM 能够生成与指令动作一致、连贯的推演结果 —— 沿各坐标轴的平移会使想象中的末端执行器产生方向一致的位移(见图中参考坐标系),而手爪开合指令会使手指姿态产生相应变化。
值得注意的是,这些行为是从学习到的动力学中自然涌现的,而非通过轴对齐运动的显式监督得到,这表明模型内化了机器人运动学中与动作相关的结构。2. 零样本规划:高接触任务成功率最高提升35%
在真实机器人的开环零样本规划迁移实验中,研究团队选取了触碰按钮、推动水果、触碰并推动、擦拭抹布、堆叠方块5个难度递增的任务,分别在VT-WM 与 V-WM进行了测试,结果显示:
简单任务(如触碰按钮)中,两款模型均实现100% 成功率,视觉信息已能满足需求;
高接触任务中,VT-WM 的优势明显,推动水果成功率提升10%、擦拭抹布提升 31%、堆叠方块提升 11%,触碰并推动这一多步高接触任务更是提升35%;
越是需要持续接触的多步任务,VT-WM 的提升越显著,核心原因是仅靠视觉无法在规划时提供足够的物体状态信息。而加入触觉感知,能为规划提供视觉无法替代的接触状态信息,让手-物交互更精准。
3. 下游泛化:仅20条演示数据,新任务成功率达77%
为验证模型的小样本泛化能力,研究团队以“将盘子放入碗架”为全新高接触任务。研究中,在多任务数据集中加入这20条新序列,对VT-WM继续训练。评估时采用CEM规划,并在真实机器人上进行零样本迁移,共执行10次试验,每次随机初始化抓取盘子的初始姿态。任务分为两个关键子目标:对齐与插入。
实验结果显示:VT-WM 的规划成功率达到77%,能顺利完成盘子的搬运与插入,且实验主要失败形式(将盘子放在碗架旁)属于轻微精度误差,而非无法理解任务的空间约束。
这一结果说明,VT-WM 能将从过往任务中学习到的接触动力(如对齐、插入)学先验知识,快速迁移到全新任务中,具备极强的下游泛化与复用能力,大幅降低了机器人适配新任务的数据集需求。
VT-WM与V-WM在真实机器人上的规划成功率
结语纯视觉世界模型的局限在于,单靠视觉难以精确刻画物理接触关系。VT-WM通过融合指尖触觉与外部视觉,将模型的“想象”锚定在接触物理规律上,能够在遮挡场景下维持对物体状态的稳定估计,使预测更贴合真实物理法则。
触觉作为视觉的关键补充,让机器人在高接触操作中大幅提升精准度。更重要的是,VT-WM 证明了多模态感知能够从根本上提升机器人对物理世界的认知能力 —— 视觉构建全局结构与运动信息,触觉锚定接触真实性,二者融合使世界模型从表观像素模仿,转向对物理因果结构的内在建模。
未来,随着多模态感知技术发展,机器人将在想象中既能“看见”运动,也能“感受”到接触。这正是迈向具身通用机器人智能的关键一步。
原文标题 : 突破纯视觉局限!VT-WM(视觉-触觉世界模型),让机器人“更懂”物理接触的真实世界