机器人连续叠衣120分钟！仅用0.9B参数实现五大SOTA｜清华AIR & 上海AI Lab开源 -A³·爱力方

作者：X-VLA团队出品：量子位

机器人也是卷疯了！

不仅能叠衣服，而且一干就是俩小时，且全程无任何辅助。

清华大学智能产业研究院（AIR）与上海人工智能实验室联合发布通用跨本体具身基座模型X-VLA，通过创新的Soft-Prompt机制、高效的框架设计与定制化训练范式，显著提升预训练效率与模型性能。

更关键的是，X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型（公开数据、代码与参数），以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录。

核心方法

为克服不同机器人平台在自由度、相机观测视角等本体参数上的差异，研究引入了可学习的Soft-Prompt。

该机制动态地将具身本体的硬件配置信息编码为一种连续表征，使模型在预训练中能够解耦任务策略与具体执行器，从而显著增强模型对异构机器人平台的适应能力，并提升混合数据训练的稳定性与效率。

针对机器人任务中多源视觉输入的异质性，研究团队提出了分治编码方案。

任务相关的主视角图像由高性能视觉-语言模型编码，以提取高层语义特征；而主要提供低层次空间反馈的辅助视角，则通过轻量化的网络进行局部特征提取。

该策略在保证信息完整性的前提下，优化了计算资源的分配，提升了模型的信息处理通量。

模型主干采用标准Transformer架构，以确保良好的扩展性与通用性。动作生成模块摒弃了传统的确定性输出策略，转而采用先进的flow-matching，以概率生成的方式建模机器人动作序列。

该方法显著增强了动作轨迹的平滑性与对不确定环境的鲁棒性，为长时序任务的成功执行奠定了坚实基础。

在预训练阶段，研究采用大规模高质量异构数据，主要特点如下所示：

平衡化数据采样：定制数据采样策略，确保异构数据集的均衡训练，避免模型偏斜。

多模态数据清洗与时空对齐流水线：团队对原始机器人操作数据实施了严格预处理，包括：将不同空间下的动作数据统一映射至标准任务空间；对高频率采集的数据进行时序层面的对齐与重采样。

此流程极大提升了状态-动作序列在时间上的一致性逻辑与整体质量。

以语义-动作对齐为导向的数据遴选标准：团队确立了严格的数据质量门槛，核心是筛选视觉帧清晰、语言指令描述精准且与后续动作序列高度关联的数据样本。

此举从源头上确保了模型学习到的是有明确因果关系的“行为知识”，而非浅层的虚假关联。

在后训练阶段，研究主要在两个方面进行了调整。

分层分组的自适应学习率调整

鉴于模型中不同组件（如预训练冻结的VLM、新引入的Soft-Prompt、主干Transformer等）的参数规模与收敛特性各异，团队为其施加了分组别、差异化的学习率调度策略。

该设计既保护了预训练获得的基础知识，又允许关键适配层快速调整，从而在保证训练稳定性的同时，大幅优化了收敛效率。

面向异构模块的渐进式 warm-up 策略

对于模型中新引入的可学习参数（如Soft-Prompt），团队在训练初始阶段采用线性递增的学习率热身机制，使其参数空间得以平稳初始化，再逐步融入全局优化过程。

该策略有效避免了训练初期因梯度剧变导致的不稳定性，尤其适用于异构模块的协同训练。

实验结果

高效预训练：可扩展的架构优势

可扩展的架构优势X-VLA的预训练缩放定律（Scaling Laws）曲线呈现出优异的线性增长趋势。这表明，随着模型参数以及训练数据规模的同步扩大，其在测试集的开环测试性能呈现稳定、可预测的提升。

这一现象验证了所提出的Soft-Prompt机制与简洁Transformer架构的强大可扩展性，为构建更大规模的具身智能基座模型奠定了坚实基础。

数据与算法的协同优化

得益于高质量的预训练基座，X-VLA在后训练（微调）阶段展现出极高的数据效率与稳定性。针对不同的下游任务（如自主叠衣），只需使用中小规模的场景专属数据进行微调，模型便能快速适应并达到SOTA性能。

这源于预训练阶段学习到的通用视觉-语言-动作表征，以及后训练中采用的定制化学习率策略与慢启动机制，它们共同确保了知识从通用域到特定任务的高效、稳定迁移。

X-VLA除了在包括LIBERO、SIMPLER等在内的权威仿真环境中取得SOTA表现外，在真实的机器人平台上，该模型也在大量简单抓取和桌面操作任务中展现了强大性能，并成功完成了无限时长的自主叠衣任务，展示了其应对复杂长程任务的卓越能力。

项目主页：https://thu-air-dream.github.io/X-VLA/

代码：https://github.com/2toinf/X-VLA.git

论文链接： https://arxiv.org/pdf/2510.10274

通知

尊敬的用户

user

机器人连续叠衣120分钟！仅用0.9B参数实现五大SOTA｜清华AIR & 上海AI Lab开源

相关图文

这可能是AI圈最贵的一次离职：200亿美元“世界模型”路线的存亡时刻

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

贝索斯神秘AI公司携62亿美元归来，一场针对“物理世界”的AI豪赌

宇树抢夺轮式地盘！这个回旋镖将飞向哪里？

灵渠OS机器人操作系统将于年底开源

地瓜机器人与傅利叶智能正式达成战略合作

热门资讯

《Sci.Robot.》顶刊发表浙大陈柳青团队提出“机器人同伴有效失败教学法”让学习效率更高！

我国机器人产量居全球首位

Pokee AI：核心技术与生态资源驱动的AI Agent平民化浪潮

MPS 人形机器人解决方案 “芯片+算法+系统”三位一体的创新驱控

人形机器人IRON发布：从实验室原型到商业场景的技术跃迁

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

快讯

这位机器人“指挥官”，能蒙眼辨认近2000把数控刀具

机器人斗舞广西上演未来舞台即将开启

欠中国代工厂超25亿元，美知名机器人公司爆雷，濒临破产！

机器人租赁市场回归理性昔日万元日薪腰斩年末需求回暖

腾讯发布混元2.0大模型，全面提升多项能力

2025智能机器人大赛决赛将于12月8、9日举行，奖金池突破百万，设四大细分赛道

英伟达发布AI新框架 8亿参数模型优化工具管理

日本AI技术助力青少年自杀倾向早期识别

景顺看好中国科技股

人形机器人订单激增花旗大摩预测2026年增长十倍

推荐专栏

爱力方

机器人大讲堂

下一篇