在具身智能的发展进程中,机器人要实现从“语言理解”到“物理交互”的跨越,仍面临泛化能力不足、物理机理建模困难以及跨场景、跨本体迁移性差等核心挑战。以视觉-语言-动作模型(VLA)为代表的主流技术方案,借助预训练视觉-语言模型(VLM)强大的语义先验,在指令跟随与简单物体操作任务上取得了显著进展。然而,其在未知环境下的场景泛化能力,尤其是在新技能学习与运动模式生成方面的适应性,依然存在明显局限。英伟达推出的DreamZero,作为基于预训练视频扩散主干构建的新一代世界动作模型(WAM),以140亿参数的自回归扩散 Transformer 架构为核心,通过联合建模视频与机器人动作,有效继承了海量视频数据中蕴含的物理与时空先验,突破了VLA的多项固有局限,实现了跨任务、跨环境、跨具身的零样本/小样本泛化,同时通过多维度技术优化,达成了机器人控制所需的实时闭环控制效果。DreamZero整体概览(图片来源:英伟达论文)
01
当前VLA模型的核心困境:懂语义,却不懂物理VLA模型的核心思路在于,将预训练的VLM所蕴含的视觉-语义知识迁移至机器人动作学习领域,从而使机器人能够理解自然语言指令、感知视觉场景并执行相应的物理操作。经过多年发展,VLA模型逐渐形成了模块化组合与端到端一体化两种主流架构。然而,这两类架构所依赖的VLM主要实现了语义层面的泛化能力,尚未能真正建模和理解物理世界的动力学规律,这成为制约VLA模型在实际机器人任务中落地的关键瓶颈。
1. 分模块VLA:依赖固定技能库,易产生跨模块误差累积
分模块VLA是早期VLA的典型架构形式,其核心设计为解耦“高层规划”与“底层执行” 两个环节:将预训练VLM作为 “黑箱推理器” 负责语义推理与任务规划,再由专用的底层机器人策略或控制器完成动作执行。该模块化设计虽简化了复杂任务的规划流程,提升了初期开发效率,但存在相关局限性。
1)高度依赖预先构建的底层技能库,泛化能力受限
分模块VLA的底层执行高度依赖语言条件运动基元库——即一组将语言指令与固定运动模式绑定的动作模块(如抓取、放置、插入等)。在该范式下,VLM的核心作用仅限于“听指令选模块”,其泛化能力仅体现在语义理解层面;而底层执行的泛化范围则完全受限于技能库的覆盖边界。然而,现实世界的物理交互具有多样性与复杂性,预设的动作模板难以覆盖全部应用场景。例如,机器人可执行训练过的“将可乐罐移至桌面”指令,却无法完成“解开鞋带”或“按压烤面包机杠杆”等新技能操作。若要实现新任务的跨环境泛化,往往需要针对不同场景收集数百组人类遥操作数据进行重训,整体开发成本高昂,难以适配开放世界。
2)跨模块误差易累积,对接口稳健性要求严苛
上层VLM与底层控制器之间通过指令序列、视觉轨迹、功能性感知结果 三类信号交互,但这一接口本身是“不可微”的 —— VLM的规划误差会传递到底层执行,底层执行的物理误差又会反馈给上层规划,形成跨模块误差累积 。同时,抽象的语义规划与具体的物理执行之间需要极强的接口稳健性,一旦场景稍有变化,就容易出现规划与执行的错位问题。
2. 端到端 VLA:缺乏物理与时空先验,新技能新环境泛化薄弱
模块化 VLA 因模块接口复杂、误差逐级传递、依赖人工定义技能库等问题难以实现高效泛化。为从架构层面突破上述瓶颈,端到端一体化 VLA被提出。这类模型摆脱了规划-控制的分层结构,将语言条件语义与底层机器人动作融合在同一个模型中,由大规模预训练VLM初始化,实现了 “视觉 + 语言→动作” 的端到端映射,在 视觉- 语义知识迁移 上取得了前沿进展。但端到端VLA 的底层底座仍是在静态图像 - 文本数据集上预训练的 VLM,这一本质特征让其存在先天难以从根本上弥补的短板: 缺乏学习时空先验的能力。所谓物理与时空先验 ,是模型从视频、机器人交互等连续时序数据中学到的物理规律,让机器人理解“空间结构是什么、动作会带来什么变化”,是从 “懂语义” 升级到 “懂物理” 的核心。而静态图文数据仅能让 VLM 学会 “识别物体、理解指令”,却无法让其掌握重力、碰撞、运动动力学等物理知识,也无法匹配精准的空间感知、几何结构与运动控制。因此,端到端VLA 的泛化能力仍仅局限在 物体层面与语义层面 ,在全新运动技能、全新开放环境上的泛化能力依然比较弱。若不专门收集大规模面向特定任务与环境的动作数据,端到端VLA 既无法适应新环境,也无法在专家演示分布之外的新任务上实现泛化。总之,无论是分模块还是端到端VLA,其核心问题均可归结为: 仅继承了VLM 的语义先验,却缺乏物理与时空先验,即物理世界的动力学先验。 尽管VLM先验在语义层面编码了要执行什么操作,但它们缺乏如何依托精准空间感知来执行动作的表征,无法与几何结构、动力学特性及运动控制相匹配。这种“ 语义- 物理 ”的鸿沟,让 VLA 始终难以摆脱对大规模特定任务数据的依赖,也无法实现真正意义上的开放世界泛化。而要破解这一问题,核心思路是让模型从连续时序数据中学习物理动力学规律,而视频数据因其天然的时序属性和对物理过程的完整记录,成为该研究方向的关键数据载体。
02
从视频生成到WAM:具身智能的全新解决方案
视频数据包含连续的视觉帧变化,天然编码了物理世界的时空规律、运动因果与动力学特性,成为弥补VLA物理先验缺失的关键。随着视频生成模型的发展,研究者开始探索将视频生成与机器人动作生成结合,最终诞生了 世界动作模型(WAM) ,成为突破VLA困境的新一代技术范式。
1. 机器人领域的视频生成:从隐式世界模型到动作映射
在WAM诞生之前,视频生成模型就已应用于机器人领域,其核心作用是作为隐式的“世界模型”,通过合成机器人操作的视觉轨迹——即模型学习视觉时空先验,预测未来帧中机器人/物体的视觉运动路径——来模拟物理交互的动态过程。随后,再通过多种方式将这一视觉预测转化为机器人可执行的物理动作,主要包括三种方法:
逆动力学模型:
从视频预测的末端执行器3D轨迹出发,首先通过逆运动学解算为期望的关节空间轨迹(含位置、速度)。随后,基于机器人动力学模型,通过逆动力学计算实现该期望运动所需的关节力矩,并将其作为底层转矩指令发送至执行器进行跟踪。
光流作为稠密对应:
利用视频连续帧间的像素级运动向量(光流),建立从当前到目标状态的稠密像素对应关系。这种方法能捕捉物体的非刚性形变和精细运动,尤其适用于需要隐式理解物体几何与物理属性的操作,如抓取可变性物体或高精度装配。
轨迹预测作为高层规划:
该方法应用于模块化系统设计,视频生成模型充当高层规划器,输出参考轨迹(如一系列运动基元或关键路径点);而底层则由一个专用的运动控制器负责,通过闭环控制实现对参考轨迹的精确跟踪与实时修正。这一阶段的研究证明,视频生成模型能隐式学习丰富的物理动态先验,为机器人提供视觉运动引导。然而,该范式本质上是开环的:模型仅负责从观测预测未来,其输出的视觉轨迹与机器人的底层动作执行相互割裂。这种“感知-预测”与“动作”的分离,导致模型无法从执行结果中学习因果关联,难以应对真实世界中复杂的接触动力学和未预见的干扰,因此其泛化能力,尤其是在新物体、新场景下的零样本执行能力,仍然存在根本性局限。
2. 视频与动作联合生成:WAM 的诞生逻辑
为实现视觉理解与动作执行的深度融合,研究者提出了视频生成与动作生成联合学习的范式,旨在通过统一的模型实现端到端的世界建模与动作预测。最后,经研究证明,在动作预测的同时引入世界建模目标(即预测未来视觉状态),能显著提升模型的多任务性能、样本效率以及对新场景、新物体的泛化能力。早期的联合建模尝试,无论是采用"先视频生成、后逆动力学反推"的分阶段方法,还是尝试在同一双向扩散架构中联合学习视频与动作,均面临视频-动作对齐失效、时间流扭曲或动力学先验不足等根本性挑战。近期的研究突破则选择以 预训练视频扩散模型作为基础骨干 ,让模型直接继承海量互联网视频数据中隐式编码的丰富视觉动力学先验(如重力、接触、形变等)。WAM 的核心设计便是 学习视频与动作的联合分布 ,这也是其区别于VLA和传统世界模型的关键。所谓视频与动作的联合分布,即模型同时学习「机器人动作」和「画面时序变化」之间的因果绑定关系,实现双向映射:已知动作,能精准预测未来的视觉画面(世界建模);已知目标视觉画面,能反推出对应的机器人动作(动作生成)。在这一机制中,视频预测扮演了 隐式视觉规划器 的角色—— 模型不输出任何文字步骤、符号指令等显式规划信息,而是通过预测未来的连续视觉帧,间接引导动作生成,让动作始终与物理世界的变化保持对齐。这种隐式规划方式,让 WAM 摆脱了固定规划模板的限制,更适配开放世界的复杂场景。值得注意的是,研究者将其命名为"世界动作模型(WAM)"而非"视频动作模型(VAM)" 。这一命名的深意在于:视频只是世界建模的一种稠密表示形式。未来的WAM可将动作与触觉感知、力反馈、隐空间表征等其他预测模态进行对齐,从而实现对物理世界更全面的建模,具备更强的扩展性与跨具身迁移能力。
03
DreamZero:WAM的全新技术范式
英伟达 DreamZero是基于预训练图像转视频扩散主干网络构建的140亿参数规模的机器人基础模型,采用自回归扩散 Transformer(DiT)架构,通过教师强制分块视频去噪目标训练,实现了视频与动作的深度联合建模。
1.DreamZero 核心设计:三大转化挑战与针对性解决方案
预训练视频扩散模型从互联网规模数据中习得并继承了丰富的时空先验,成为构建机器人策略主干网络的优质选择。但将这类模型转化为可实际落地的有效世界动作模型(WAM),仍面临三大核心技术挑战:
1)视频-动作模态对齐 :
联合预测视频与动作的核心要求是实现视觉未来状态与运动指令的紧密耦合,若简单拼接独立的视频头与动作头,极易导致二者模态错位,无法实现有效联动。
2)架构设计选型 :
双向架构与自回归架构对WAM 的适配性尚未形成明确结论,而架构的选择会直接影响模态对齐效果、推理过程中的误差累积程度以及整体推理效率。
3)实时推理效率 :
视频扩散模型的推理需在高维隐空间中完成迭代去噪操作,这一特性导致模型推理延迟过高,无法直接应用于机器人闭环控制场景。针对上述三大挑战,DreamZero 通过三项针对性的设计策略实现了技术突破,成功将预训练视频扩散模型转化为高效可用的 WAM:
构建单一端到端模型:
采用共享目标函数对视频与动作模态进行联合去噪,从模型底层架构上确保二者的深度融合与精准对齐。
选用自回归架构并结合闭环执行设置:
在每个动作块执行完成后,将KV 缓存中的预测帧替换为真实视觉观测值,从根源上消除自回归推理中的误差累积;同时借助 KV 缓存实现高效推理,且能保留视频原生帧率,进一步保障视频与动作的模态对齐精度。
系统、实现、模型三层面优化:
通过多维度的技术优化实现了38倍的推理加速,最终让模型支持以7Hz的频率完成机器人实时闭环控制。
2. DreamZero 模型架构:三输入 + 单主干 + 双输出的端到端设计
DreamZero采用端到端自回归架构,以预训练视频扩散模型(Wan2.1-I2V-14B)为骨干,仅引入少量新增参数(如动作解码器、状态编码器)实现视频与动作的联合预测。其架构可概括为: 三类输入(视觉观测、语言指令、本体状态) 、 一个自回归DiT主干 、 视频与动作双输出头 。核心设计在于"条件输入下的视频-动作联合生成",通过自回归生成与KV缓存回灌机制,实现视觉演变与动作指令的深度耦合。
DreamZero模型架构:模型训练和模型推理(图片来源:英伟达论文)
1 )三类条件输入:全方位感知任务与环境信息
DreamZero 的输入覆盖了 视觉、语言、机器人自身状态 三大维度,所有输入均经过专属编码器处理为低维隐变量,确保模型能全面理解任务指令、视觉场景与自身状态,为联合预测提供充足的条件信息。
视觉上下文 :
即机器人当前与历史的视觉观测帧序列,通过 VAE 编码器 压缩为低维隐变量,在保留视觉细节的同时大幅降低计算量,是模型学习物理规律的核心输入;
语言指令 :
即自然语言形式的任务描述(如“把橙子放进南瓜里”“按压电梯按钮”),通过 文本编码器 转化为语义条件向量,告诉模型“需要完成什么任务”;
本体感受状态 :
即机器人自身的物理状态,包括关节角度、末端执行器位姿、夹爪状态等,通过 状态编码器 转化为状态条件向量,告诉模型“当前在哪里、处于什么姿态”。对于多视角的机器人训练数据,DreamZero 仅将所有视角拼接为单帧,无需对主干网络做架构修改,最大程度保留了预训练视频模型的泛化能力。
2 ) 自回归DiT主干网络:流匹配 + 自回归架构
所有编码后的输入均送入采用流匹配方法的自回归扩散Transformer(DiT)主干网络,这是 DreamZero 的核心计算模块:
流匹配:
学习从"噪声分布"到"真实数据分布"的连续向量场,支持视频与动作的联合去噪,保证二者对齐;
自回归架构 :
确保模型仅依赖过去信息生成未来内容,符合物理时序逻辑。借助KV缓存实现高效推理,保留原始视频帧率,保证帧与动作的精准对齐。
3 ) 双解码器:联合输出未来视觉帧与可执行动作序列
经过自回归DiT 主干网络处理后,模型通过 VAE解码器 和 动作解码器 两个独立解码器,实现 未来视频帧 与 连续动作序列 的联合预测:
VAE 解码器:
将视频隐变量还原为未来视觉帧,作为隐式视觉规划器引导动作生成;
动作解码器:
将动作隐变量还原为机器人可执行的连续动作块,其时间跨度与视频分块完全对齐,确保动作执行后能产生与预测视频相一致的视觉变化。这种“单主干 + 双解码器” 的设计,既实现了视频与动作的深度融合,又保证了两类输出的独立性,避免了模态之间的干扰。
3. DreamZero 训练方式:教师强制下的分块视频-动作联合去噪
DreamZero的训练核心是以真实历史为条件,对 分块视频与动作 进行联合流匹配去噪。这一范式结合了 分块处理、教师强制、流匹配 三大技术。
1 ) 分块处理:适配长时序任务
DreamZero将长时序的视频与动作序列拆分为多个固定长度的分块(Chunk)。每个视频分块包含固定数量的隐式帧,且与动作分块的时间跨度完全对齐。这种分块方式让模型能对可变长度的序列进行训练,类似于大语言模型对文本Token的处理,既避免了长时序训练的梯度消失/计算爆炸,又能适配复杂的长时程机器人任务。
2) 教师强制:用真实数据引导稳定训练
在训练过程中,DreamZero采用教师强制(Teacher Forcing) 策略:模型始终以干净的真实历史数据(前序视频帧、动作、状态)为条件,对含噪声的当前分块(视频/动作隐变量)进行联合去噪。这一设计确保模型在训练初期始终基于真实的物理状态进行预测,避免了因自身预测偏差累积导致的训练崩溃,大幅提升了训练的稳定性和收敛速度。
3 ) 联合流匹配去噪:共享 去噪 时间步,实现视频-动作深度对齐
DreamZero以流匹配为核心训练目标,对视频和动作隐变量进行联合去噪,并在两模态间共享去噪时间步,使模型在训练初期即能学习二者的因果绑定。形式化地,模型将干净的视频/动作隐变量与随机噪声线性插值,得到含噪隐变量,再预测从含噪状态到干净状态的联合速度场,通过最小化预测速度与真实速度的误差更新参数。同时,模型施加因果注意力掩码,确保当前分块仅能关注前序分块的干净上下文,严格遵循时序逻辑。注: 针对实时控制的加速版本DreamZero-Flash采用解耦噪声调度,允许视频和动作处于不同的噪声水平,以实现单步推理。
4. DreamZero 实时推理优化:38倍加速,实现7Hz闭环控制
基于扩散模型的WAM虽具备强大的泛化能力,但迭代去噪过程带来的 高延迟 ,使其与机器人的反应式控制存在本质矛盾—— 原始 DreamZero 在单 GPU 上生成一个动作块需要约5.7秒,难以实现实时闭环控制。为解决这一问题,DreamZero 从 系统、实现、模型 三个层面进行了全方位的优化,最终实现了 38 倍的推理加速 ,将单动作块的推理延迟从5.7 秒降至150毫秒,支持以7Hz的频率实现实时闭环控制。
1 ) 系统层面优化:并行化 + 缓存优化推理吞吐量
将模型推理与机器人动作执行解耦,运动控制器持续执行最新的动作块,推理程序基于最新观测并行运行,将延迟约束从“推理必须在运动前完成”转变为“推理必须在当前动作块耗尽前完成” 。 在异步执行框架下,通过并行化与缓存优化推理吞吐量 :
CFG 并行 :
将无分类器引导的两次前向传播(条件/无条件)分配到两张GPU上并行执行,单步推理延迟降低47%;
DiT 缓存 :
利用流匹配中速度预测的方向一致性,当连续速度的余弦相似度超过阈值时 , 复用缓存的速度,将有效DiT步数从16步减少到4步,且几乎不损失动作预测质量。
2 ) 实现层面优化:编译器+量化+内核优化,降低硬件开销
Torch Compile + CUDA Graph :
利用PyTorch编译工具消除CPU开销,并通过 CUDA Graph 实现算子融合 。 静态形状 仅在第一条轨迹时触发重新编译,大幅提升推理速度;
训练后量化 :
在Blackwell架构上将模型权重与激活量化为 NVFP4 格式,仅将 QKV、Softmax 等敏感操作保留在FP8,非线性操作保留在 FP16,在几乎不损失精度的前提下大幅降低显存占用和计算量;
内核与调度器优化 :
使用cuDNN 后端实现注意力计算,并将调度器相关操作迁移到GPU,消除CPU-GPU 同步阻塞,提升硬件利用率。
3 ) 模型层面优化:DreamZero-Flash,解耦噪声调度实现单步去噪
扩散步数仍是延迟的核心瓶颈,而简单减少步数会导致视觉噪声传导到动作预测,降低动作质量。为此,英伟达提出了 DreamZero-Flash ,通过在训练时, 解耦视频与动作的噪声调度 来 解决这一问题。其核心思路是 :训练时让视频噪声偏向高噪声状态(通过Beta分布采样),同时保持动作噪声为均匀分布,让模型学习 从含噪的视觉上下文直接预测干净的动作 。这一设计让模型在推理时即使仅用1 步去噪,也能生成高质量的动作,最终将扩散步数从4步降至1步,推理时延从约350ms降至约 150ms,且性能几乎没有损失。此外,DreamZero 还通过 动作块平滑处理 (上采样+ Savitzky - Golay 滤波 + 下采样)抑制生成动作中的高频噪声,让机器人的运动更平滑、更稳定。
5. DreamZero : 三项核心技术
突破经过上述架构设计与技术优化,DreamZero在具身智能的核心指标上实现了显著突破,性能显著优于当前SOTA的VLA模型与早期WAM相关研究,其实验结果在真实机器人实验和 Genie Sim 3.0、PolaRiS 等权威仿真基准上得到验证。
1 ) 泛化能力提升超2倍,实现跨环境、跨任务、跨具身泛化
DreamZero实现了超越传统VLA和以往世界动作模型的全新泛化能力 —— 跨环境、跨任务、跨具身。与当前最先进的预训练VLA模型 (GR00T N1.6与π 0.5 ) 相比,在环境与任务泛化基准测试中,其平均任务进度提升超过2倍。
2 ) 从多样化异构数据中高效学习,打破对重复演示的依赖
DreamZero证明了通用机器人策略可以从多样化、异构数据中高效学习,打破了“通用策略需要为每个任务提供多次重复演示”的传统认知。尽管已有研究表明,世界动作模型从视频预测中习得的先验相比VLA模型能提升动作学习的样本效率,但绝大多数相关工作仍聚焦于重复演示数据。正是这种多样化数据的预训练,让模型习得了不受特定场景干扰的通用物理先验——因此,即便经过面向特定任务的后训练,DreamZero的环境泛化能力依然得以保留,在平均任务进度上比当前最优的VLA模型高出10%。这表明模型不仅学习效率高,且学到的知识具备持久性与迁移性。
3 ) 跨具身迁移能力,纯视频学习+小样本适配新机器人
DreamZero 实现了 两种跨具身迁移形式 :
纯视频跨具身学习 :
仅使用10–20分钟来自其他机器人(YAM)或人类的纯视频演示,就能让目标机器人(AgiBot G1)在未见过的任务上性能相对提升超过 42%;
小样本具身自适应 :
在AgiBot G1上预训练的 DreamZero,仅用 30 分钟的交互数据 ,就能快速适配全新的机器人形态(YAM),且适配后仍能保留其零样本泛化能力。
04
未来展望
DreamZero证明了预训练视频扩散模型可以成为机器人通用基础模型的优秀底座。通过联合建模视频与动作,它使机器人能够从海量互联网视频中继承通用的物理时空先验,大幅降低对真实机器人训练数据的依赖,实现高效的通用技能学习与泛化。然而,DreamZero仅是这一技术路径的初步探索。从未来发展来看,以下方向值得深入研究:
1) WAM的缩放定律
使用更大的视频主干模型、在更多样化的数据上训练,能够显著提升下游性能。但目前我们仍缺乏针对机器人基础模型——尤其是世界动作模型(WAM)——的系统性缩放定律证据。与大语言模型类似,WAM的缩放规律取决于模型规模、数据规模与训练算力三者之间的协同关系。研究人员推测,WAM的缩放趋势将与VLA不同,可能呈现出更直接、更贴近动作任务需求的缩放特性。对这一规律的深入探究,将是决定WAM能否持续扩展能力边界的关键。
2) 从真实场景人类数据中学习
本研究初步验证了利用人类第一人称数据可提升未见任务的性能,但实验仍局限于小规模实验室数据(仅12分钟)。近期,大量分布更广、与机器人操作相关的人类视频数据集已陆续公开。由于WAM本身就在多样化互联网视频上预训练,研究人员认为:利用这些大规模人类第一人称视频,有望让WAM比现有VLA更高效地迁移至下游机器人任务。这一方向将成为后续研究的重点。
3) 更快的推理速度
通过模型与系统优化,DreamZero已在2块GB200上实现7Hz频率的闭环控制。但与消费级GPU上可运行至20Hz以上的现有VLA相比,DreamZero因参数量大、视频模型需迭代去噪,计算开销仍然较高。未来,若更小的视频主干模型也能具备强泛化能力,WAM有望在轻量边缘设备上作为实时System1(快系统)模型部署,拓展其应用场景。
4) 长时程推理
当前DreamZero架构主要作为System1模型工作。尽管具备视觉记忆机制,但其记忆跨度目前仅为短时程(约6秒)。要实现稳健的长时程任务执行,存在两条技术路径:一是引入System 2(慢系统)规划器,构建模块化双系统架构;二是将WAM的上下文窗口大幅延长,借鉴视频生成模型中长时序一致性的相关技术。两条路径均具潜力,值得并行探索。
5) 高精度任务
尽管DreamZero在多样化的任务与环境中展现出广泛的泛化能力,但在钥匙插入、精细装配等亚厘米级精度要求的任务上,它仍带有行为克隆方法的固有局限。当前的多样化预训练策略以任务广度为优先,可能导致对高精度操作所需的密集演示数据覆盖不足。值得关注的是,近期研究表明:世界动作模型在毫米级公差的高精度操作任务中反而具备潜在优势。这一积极信号提示,泛化广度与精细灵巧之间的权衡,有望通过进一步研究实现调和。
6) 面向WAM的机器人具身设计
研究人员提出,未来WAM的发展将对机器人具身形态提出新的设计要求,其中两大核心因素值得关注:
自由度:
高自由度机器人需要更多自由探索数据,才能学习精准的隐式逆动力学模型——因为从未来视觉状态到电机控制指令的映射,会随运动学复杂度呈组合式增长。如何量化隐式逆动力学模型的精度,仍是待解的行业难题。
拟人度:
与人类形态更接近的具身结构(如具备灵巧操作能力的人形机器人),尽管自由度更高,但其迁移效率反而更优。原因在于,这类机器人能够同时复用两大资源:视频预训练中习得的运动先验,以及海量人类第一人称视角视频数据。这两大因素的影响方向看似相悖,但类人具身结构最终可能占据优势——它以牺牲一定的机械简洁性为代价,换取了访问全网规模人类数据的资格。而这些数据,正是下一代机器人基础模型的核心燃料。
原文标题 : DreamZero:从语言理解到世界建模——具身智能的WAM新范式