作者:李鑫 出品:具身智能大讲堂
在机器人操控领域,VLA模型一直是连接感知、语言与控制的核心框架,能让机器人听懂自然语言指令、看懂视觉场景并完成复杂操作。但长期以来,这类模型要么参数规模庞大,导致训练成本高、实时响应慢;要么依赖海量机器人数据预训练,数据收集耗时耗力;更关键的是,传统训练方式还会破坏视觉-语言 backbone 的语义对齐能力,导致泛化性差。
近日上海交大联合多家机构提出的 Evo-1 模型,彻底打破了这一困境。这款仅含0.77B参数的轻量化VLA模型,无需任何机器人数据预训练,却在仿真和真实场景中全面超越参数数倍于它的主流模型,不仅刷新了多项 benchmark 纪录,更实现了低显存占用、高推理速度的实时部署,为消费级GPU上的机器人智能操控提供了新方案,研究团队表示,目前Evo-1推理部分已经集成进lerobot框架,可以用SO100/SO101部署。
1►Evo-1成功破解VLA模型四大棘手问题:
主流视觉 - 语言 - 动作(VLA)模型在落地应用中面临四大核心瓶颈,Evo-1 通过靶向性技术优化实现全面突破:针对参数臃肿问题,其将模型参数精简至 0.77B,仅为 π₀模型(3.5B)的 1/4,彻底摆脱对高端 GPU 的依赖,大幅降低训练与推理的硬件门槛。
面对实时性不足的问题,Evo-1 将推理频率提升至 16.4Hz,显著超越主流模型普遍低于 12Hz 的水平,完全满足机器人交互式操控的低延迟需求。
为破解泛化能力薄弱难题,Evo-1 采用创新训练范式保留视觉 - 语言骨干网络的语义对齐特性,规避端到端训练导致的过拟合问题,实现对多样复杂场景的稳定适配。
此外针对数据依赖痛点,Evo-1 无需借助 OXE、DROID 等大规模机器人数据集进行预训练,仅通过少量任务演示即可达成稳定性能,大幅降低模型落地的数据集构建成本与周期。
2►Evo-1:视觉编码、语言处理、多模态融合三大模块解析
Evo-1的核心优势根植于其模块化设计,这种设计将感知、推理与控制功能无缝融合,在达成轻量化目标的同时,完整保留了应有的性能水平。这一优势的实现,依赖于基础骨干模型的精准选择。Evo-1采用InternVL3-1B作为核心支撑,该模型的特点在于原生多模态训练范式,并非在大语言模型上再引入图片模态,因此能天然建立起视觉与语言的语义关联。围绕这一基础,研发团队展开了全面优化。

Evo-1模型架构:输入的RGB观测数据与语言指令首先由轻量型视觉-语言骨干网络进行编码;二者的融合特征通过优化后的整合模块与机器人状态实现对齐,随后经交叉调制扩散Transformer处理以生成动作指令。右侧展示了该模型在三个仿真基准测试中的表现结果。
视觉编码部分,团队选用仅含3亿参数的InternViT-300M,通过下采样技术减少视觉token数量,进一步提升了处理效率,同时也兼顾了空间粒度的需求。语言处理分支则搭载Qwen2.5-0.5B模型,尽管其参数规模仅0.5B,却能精准捕捉指令中隐含的空间关系与逻辑关联。
3►交叉调制扩散Transformer:精准生成连续动作
机器人操控需要连续、连贯的动作轨迹,Evo-1模型通过引入扩散Transformer(DiT)模块替代传统动作预测模块。其核心设计架构主要包含三大关键维度。
在技术范式层面,Evo-1采用流匹配(Flow Matching)范式,该范式通过学习具备时间依赖性的向量场,将初始随机噪声逐步迭代转化为符合实际应用需求的真实动作轨迹,从底层机制上保障了机器人动作执行的连续性与流畅性。
在模型结构设计上,该系统摒弃了传统模型中交替运用自注意力与交叉注意力的复杂架构,采用纯交叉注意力结构设计,通过直接堆叠交叉注意力层完成模型建模。这种精简式结构设计不仅显著降低了模型的参数规模,更有效提升了推理运算速度,实现了模型效率与核心性能的优化平衡。
在动作生成流程方面,Evo-1首先输入含噪声的初始动作序列,随后融合视觉-语言跨模态特征与机器人实时运行状态参数,经过多轮持续去噪迭代过程,最终生成未来H步的精准动作指令,为机器人实现稳定可靠的操控提供了核心技术支撑。
4►整合模块:打通感知与控制的桥梁
为实现视觉-语言信息与机器人自身状态(如关节角度、位置等)的高效融合,Evo-1专门设计了交叉注意力整合模块。
该模块首先提取骨干网络(backbone)第14层的中间语义特征,这一层的特征能够很好地平衡视觉与语言信息的权重,避免单一模态信息占据主导地位。与传统将不同类型信息投影到共享空间再融合的方式不同,Evo-1将提取到的中间语义特征与机器人实时状态信息直接拼接,这种简化的处理方式有效减少了特征转换过程中的信息丢失,保障了原始数据的完整性。
在完成特征拼接后,模块将这些整合特征作为动作生成模块的键值输入,同时以带噪声的动作序列作为查询,通过交叉注意力机制建立起感知信息与控制指令之间的关联,最终实现感知与控制的精准对齐。
5►训练范式创新:两阶段策略保住"语义初心"
传统端到端训练会让预训练好的视觉-语言 backbone 语义漂移,Evo-1提出 两阶段训练范式,在保留原有语义能力的同时适配动作生成:
第一阶段:动作专家对齐,冻结视觉-语言 backbone,仅训练整合模块和动作生成模块。让随机初始化的动作模块逐步适应 backbone 的语义空间,避免噪声梯度破坏预训练特征。
第二阶段:全量微调,解冻 backbone,对整个架构微调。实现感知与控制的深度融合,同时通过前期对齐保证语义空间不畸变。

训练后VLA模型注意力图对比。(a)Evo-1模型(基于InternVL3-1B架构)产生的激活区域具有空间一致性与语义对齐性。(b)OpenVLA模型(基于Prismatic-7B架构)的注意力图则表现出相关性下降的问题。
可视化结果证明了这一策略的有效性:Evo-1的注意力图能始终聚焦任务相关物体(如杯子、盒子),而传统单阶段训练的模型注意力分散,甚至关注无关区域。
6►性能碾压:0.77B参数干翻3.5B大模型
无论是仿真还是真实场景,Evo-1都交出了惊艳成绩单,关键指标全面领先:

Meta-World、LIBERO与RoboTwin仿真基准测试结果
1. 仿真 benchmark 刷新纪录
在三大主流机器人操控基准测试中,Evo-1以小参数规模实现性能超越:
Meta-World(单臂操控):平均成功率80.6%,超越此前最佳模型SmolVLA(2.25B参数,68.2%)12.4个百分点,更是远超π₀(3.5B参数,47.9%);在"极难"任务中成功率79.2%,是唯一突破70%的模型。
RoboTwin(双臂操控):平均成功率37.8%,超过π₀(30.9%)6.9个百分点,在"点击闹钟"等精细任务中展现出极强的双臂协调能力。
LIBERO(复杂场景操控):平均成功率94.8%,与π₀(3.5B参数,94.2%)持平,远超SmolVLA(88.8%),在长时任务中成功率达92.3%,稳定性突出。
2. 真实世界操控:78%成功率+低资源消耗
在搭载xArm6机械臂的真实场景中,Evo-1完成"拾取放置易拉罐""倾倒泡沫""手递物品""堆叠易拉罐"四大任务,平均成功率78%:超越SmolVLA(50%)、OpenVLA-OFT(55%),甚至超过参数4倍于它的π₀(73%);

真实世界实验的任务:真实世界任务的分步执行序列。每一行均展示了一项任务从开始到完成的详细过程

真实世界实验结果:四项真实世界评估任务的成功率(左侧四个子图),以及所有任务的整体平均成功率(最右侧子图)。

推理效率对比
资源消耗极低:推理时仅占用2.3GB GPU显存(π₀需17.9GB),推理频率16.4Hz(OpenVLA仅7.9Hz),可在消费级GPU上实时运行。
3. 泛化能力拉满:抗干扰性突出
在目标位置偏移、背景颜色变化、出现未知干扰物等超出训练分布的场景中,Evo-1表现稳定。

泛化实验的干扰设置:研究团队通过四种变量场景评估模型的泛化能力,具体包括:(1)未见过的干扰物;(2)背景颜色变化;(3)目标位置变化;(4)目标高度变化。

泛化实验成功率
基础任务(拾取放置)成功率95%,比SmolVLA(75%)高20个百分点;
目标位置向后偏移30mm时,成功率仍达80%,而SmolVLA仅60%;
增加未知干扰物(瓶子)时,成功率80%,远超SmolVLA的65%。
7►Evo-1核心模块消融实验结果
为了明确核心模块的贡献,团队进行了消融实验,结果显示,在整合模块方面,采用"中层交叉注意力+特征拼接"的设计(Module A)效果最佳,在长时任务上成功率比其他设计高5%-10%,避免了信息传播中断。

整合模块与训练范式对比结果:(a)四种整合模块在LIBERO-Long基准测试中的成功率;(b)单阶段训练范式与本文所提两阶段训练范式在Meta-World基准上的性能对比。
在训练范式方面,团队采用两阶段训练比单阶段在Meta-World上平均成功率高12%,尤其在困难任务中差距达18%,证明语义保留对泛化性的关键作用。
8►结语与未来:
Evo-1的突破不仅在于刷新性能纪录,更在于为VLA模型的实用化铺平了道路。仅0.77B参数、无需机器人预训练、低显存占用的特性,让消费级GPU部署成为可能,大幅降低了机器人智能操控的技术门槛。
未来,随着这类轻量化模型的普及,家庭服务机器人、工业协作机器人等场景有望实现更灵活、更高效的自然语言交互与精准操控。目前,团队已开源代码、数据和模型权重,为后续研究提供了重要基础。
论文地址:https://arxiv.org/abs/2511.04555
开源地址:https://github.com/MINT-SJTU/Evo-1