上一篇文章:PI VLA模型解读系列(二):从π0.5模型到实时分块算法(RTC) 主要围绕π0.5模型、“知识绝缘 VLA”以及实时分块算法(RTC)展开介绍。本文将衔接上一篇内容,继续介绍Physical Intelligence(以下简称“PI”)在具身智能VLA模型方面的发展情况:
2025年11月,PI发布了具身智能VLA模型π0.6,同时,推出一种名为RECAP(基于优势条件策略的经验与修正强化学习)的方法,并利用此方法,训练出来了全新的π*0.6模型。
2025年12月,PI开发了一种利用人类第一视角数据改进模型的方法,并且在研究中观察到人机技能迁移的涌现现象。
一、 π0.6模型
2025 年11月17日,Physical Intelligence(以下简称“PI”)正式发布其新一代机器人基础VLA模型 π0.6。该模型延续π0.5 的层次化设计架构,核心逻辑是将复杂任务拆解为高层次子任务规划与低层次连续动作生成两个分层决策过程,实现“感知 - 规划 - 执行”的高效协同。
1. π0.6模型设计
与π0、π0.5 保持一致,π0.6 的模型架构基于流匹配与Token化离散输出双机制生成动作块,在骨干网络初始化、模块参数设计、输入处理与训练策略上实现了针对性优化,同时兼顾推理效率。
1)VLM骨干网络与动作专家模块
π0.6 的VLM 骨干网络由 Gemma3 4B 模型初始化,可继承其丰富的世界知识、强大的语言理解能力与优秀的视觉特征提取能力;动作专家模块在层数上与VLM骨干网络保持完全一致,参数量约 8.6 亿(860M),结构的高度对齐有效促进了两大模块的信息交流与协同工作。
得益于此,VLM骨干网络所产生的高维语义表示能够被高效地传递至动作专家模块,并作为生成精确动作的核心上下文依据。
2)多模态输入处理
在预训练阶段,π0.6模型最多可接入4张分辨率 448×448 的图像输入,分别对应基座相机、最多两台腕部相机,以及移动操作臂的后置相机(选配);经视觉编码器处理后的图像token,会与Token化的语言提示词、Token化的本体感知状态完成拼接,实现多模态信息的融合。
3)注意力机制设计
延续π0.5 的设计逻辑 —— π0.6模型所有图像Token间采用双向注意力机制,文本Token间采用因果注意力机制,输入至动作专家模块的动作Token同样使用双向注意力机制,让动作专家在生成每个动作时,能全面考虑动作序列上下文,保证动作轨迹的连贯性与协调性。
4)知识隔离训练策略
π0.6模型基于知识隔离技术完成训练,实现感知与执行模块的分层优化 —— VLM 骨干网络负责预测 FAST 动作Token及多模态网络数据等协同训练样本,动作专家模块专门预测连续动作;且动作专家模块产生的梯度不会回传至VLM骨干网络,避免不同模块的训练梯度相互干扰,提升了各模块的专业化能力。
2. 模型训练数据
π0.6 在很大程度上沿用了π0.5 的训练数据构成,核心训练数据包含:团队内部采集的跨具身数据与外部数据源、家庭环境中采集的多类型移动/ 非移动操作数据、高层级子任务预测相关数据、涵盖边界框与关键点预测任务的多模态网络数据集。
在前期模型研发中,研究团队发现,利用精挑细选的高质量数据开展额外的任务专属微调(亦称后训练),是提升模型性能的有效方式,部分场景下甚至是模型取得良好表现的必要条件。
而π0.6 依托多样化的训练数据与丰富的元数据条件调控机制,打破了这一依赖—— 无需开展任何任务专属微调,即可在各类机器人操作任务中实现性能的大幅提升。
3. π0.6 相对π0.5 的改进点
相比π0.5模型,π0.6在预训练VLM 骨干网络、提示词设计、训练数据集构成三个层面完成迭代优化。
1)模型架构迭代升级
在整体框架保持一致的前提下,π0.6 对VLM 骨干网络的初始化方式与动作专家模块的设计做了针对性优化,强化了感知基础与动作生成能力:
π0.6的VLM骨干网络采用 Google 的 Gemma3 4B 模型初始化,替代了π0.5的Gemma1 2B模型,让模型拥有更扎实的多模态感知与知识推理能力,丰富了世界知识储备。
作为模型运动控制核心的动作专家模块,参数量从π0.5 的300B 提升至 860B,且网络层数与全新 VLM 骨干网络高度对齐,实现了模块间语义信息的高效传递。
π0.5模型架构(图片来源:PI论文)
π0.6模型架构(图片来源:PI论文)
2)提示词中融入条件元数据
π0.6在提示词设计中新增条件元数据选择性融入功能,可通过元数据对任务执行方式进行精细化调控,让模型能根据具体场景需求调整输出策略,相比π0.5 的纯语言指令提示,实现了任务执行的更高灵活性与可控性,适配更多样化的实际操作场景。
在配置5 步去噪流程、输入 3 路相机数据的测试条件下,π0.6 在单张H100 显卡上生成一个动作块仅需 63 毫秒,兼顾功能灵活性与推理效率。
3)训练数据更多样性
在继承π0.5 原有数据集的基础上,π0.6进一步引入更多样化、更高质量的训练数据,重点针对机器人灵巧操作、泛化能力相关任务完成数据进行增强,同时补充了更多跨具身、家庭环境的移动/非移动操作数据,让模型在未见过的任务与场景中,仍能保持良好的适应能力。
二、 π*0.6模型:从经验中进行学习的VLA模型
1. 为什么要引入RECAP?
我们观察到一种普遍现象:让一个VLA模型“偶尔”惊艳相对容易,但让它“始终”稳定可靠却异常困难。模仿学习可以带我们走完90%的路,但最后那10%通往真正自主与鲁棒的路径,它却无法抵达。
1)人类的启示:三步掌握一项技能
人类技能的精进之路,为我们指明了方向。例如,要真正掌握像组装纸箱这样一项技能,仅靠观看教学还远远不够。一个完整的学习闭环包含以下三个关键阶段:
示范学习:观察专家操作,理解基本流程与最优策略。
指导纠错:自己动手尝试,在导师的即时反馈下识别并修正错误。
自主练习:进行大量重复练习,将动作内化为肌肉记忆,并能应对各种突发情况,最终达到娴熟甚至超越导师的水平。
当前主流的机器人模仿学习,仅仅完成了上述流程的第一阶段。它缺失了至关重要的 “从错误中学习” 和 “通过实践强化” 的环节。就像一个永远只在教练指导下练习、从未独立上场比赛的运动员,永远无法成为真正的高手。
2)关键转折:从“模仿”走向“实践”
要让机器人突破瓶颈,我们必须为其引入“自主练习” 的能力。这意味着,机器人策略必须能够利用自身交互产生的经验——无论是成功的还是失败的——来持续优化自己。其核心思想是:从自己犯过的错误中学习,是修正错误、防止其再次发生的最有效途径。
这并非新概念,其理论根基在于强化学习 —— 一个让智能体通过试错与环境交互来学习最优策略的框架。然而,将这一理论转化为一套适用于大型VLA模型、能够处理真实世界复杂性与数据异构性、且可规模化部署的实用系统,面临着几大严峻挑战:
数据之杂:我们需要一个算法,能高效融合与利用来源、质量各异的混合数据,包括初期的人类演示、过程中的专家干预(纠错)、以及策略自身在迭代中产生的海量成败不一的自主经验。
模型之大:该方法必须能适配并高效训练参数庞大的VLA模型,尤其是那些采用如扩散模型等先进生成技术来输出动作的模型。
信号之浊:它必须具备从“好坏参半”的数据中淘金的能力,尤其是能从次优甚至失败的轨迹中提取出有价值的改进信号,而不仅仅依赖于最优示范。
奖励之难:在物理世界中,为每个动作步骤设计精确、可量化的奖励信号极其困难且成本高昂。
3)RECAP:为机器人学习闭环而生
为系统性破解上述技术挑战,打通机器人从行为“模仿” 到技能 “精通” 的完整学习路径,PI 团队提出了 RECAP 方法(Experience and Corrections via Advantage-conditioned Policies,基于优势条件化策略的经验与修正)。
该方法的核心目标是构建一套具备持续自进化能力的学习系统:让机器人的行为策略不仅能以专家示范为起点开展模仿学习,更能通过在现实场景中的持续实践交互,从成功经验中提炼操作规律,从失败尝试中总结修正策略,最终实现对初始专家示范的超越,在任务执行的稳定性、操作效率与场景泛化能力上达成全方位提升,真正满足机器人在复杂动态的实际场景中落地应用的严苛要求。
2. 什么是RECAP?
RECAP 是一套解决机器人自主学习难题的通用方法框架,以通用VLA模型为训练基础,融合示范数据、自主实践经验与专家干预数据三类核心信息,遵循离线强化学习框架展开训练。
其核心价值在于能从“不良” 经验数据中高效提取有效训练信号,并针对性解决基于任务结果的强化学习中存在的信用分配难题,最终让机器人习得性能优于原始训练数据的优化决策策略。
为充分挖掘机器人自主学习中“不良” 经验的价值,RECAP 设计了两种途径提取有效训练信号:
第一种是专家纠正式指导,由远程操作专家针对机器人实际运行中的具体错误,通过手动远程操控接管并演示修正方法,这类干预可作为监督信号使用。与VLA模型预训练时的通用演示数据不同,它精准对应机器人实际执行状态,能有效解决错误累积问题。
第二种是基于任务结果的强化学习,机器人无需人工介入,直接根据每次任务的整体结果自主判断行为优劣,通过迭代学习强化有效行为、规避错误行为。
而基于任务结果的强化学习,天然面临核心挑战—— 信用分配问题,即难以准确界定执行过程中哪些动作促成了成功、哪些动作导致了不良后果,这也是制约这类学习方式落地的关键痛点。对此,RECAP 给出的核心解决方案是训练价值函数,并基于此完成优势值估计与策略优化。
价值函数是能预测机器人执行特定状态相对优劣的模型,可从机器人实践经验中学习获得。通过观察该函数的变化趋势,就能判断动作好坏—— 使价值函数上升的为值得鼓励的良好动作,导致其下降的则为需抑制的不良动作,这种价值变化在强化学习中被称为优势值。
训练好价值函数后,可借助其估算数据集中每个动作的优势值,再基于优势值构建性能提升指标,将模型决策策略与该指标条件化绑定,完成策略提取。对于VLA模型,RECAP会以价值变化为条件对其进行调控,该方法具备良好的可扩展性,可适配大型VLA模型的训练需求。
RECAP 方法的整体技术框架(图片来源:PI论文)
备注:RECAP 方法支持结合奖励反馈与人工干预完成具身VLA模型的训练 —— 本系统以融合优势条件化机制(RECAP)的预训练具身VLA为基础,让模型能够从真实世界的经验中实现高效学习。针对每项任务,先部署该模型,同步采集模型的自主试错滚动数据与在线人工修正数据;随后利用这类在线数据对价值函数进行微调,优化其对动作如何影响任务表现的评估能力;进而基于这些更新后的优势估计值,对具身VLA模型开展微调与条件化处理,最终反向实现模型策略行为的优化。
3. 基于RECAP方法构建π*0.6模型
1)RECAP方法执行步骤
本方法包含以下步骤,通过重复执行一轮或多轮该流程,可实现具身基础VLA模型的性能优化:
A. 数据采集:将VLA 模型部署至目标任务场景中运行,为每个任务回合标注任务结果标签(该标签用于确定奖励值);同时可根据需求选择性实施人工干预,针对模型前期迭代中出现的操作失误,提供精准的修正示范。
B. 价值函数训练:利用截至目前采集的全部数据,训练一个大参数量的多任务价值函数,该函数可实现任务失败检测,还可预估任务的预期完成时间,可用于评估任务向成功推进的进度。
C. 优势条件化训练:借助价值函数优化VLA模型的策略时,将基于该价值函数推导的优势值构建最优性指标,并将其融入VLA模型的前缀特征中。这一 “优势条件化” 训练方案,提供了一种简洁高效的方式,能够依托价值函数,从非最优数据中高效提取更优策略。
模型预训练阶段,需在全量预训练数据集上执行上述B、C 两步操作。该数据集涵盖数万小时示范数据,覆盖多类任务及多种不同机器人平台。完成预训练后,重复执行 A、B、C 三步流程一轮或多轮,依托模型自主采集的经验数据,持续推动 VLA 模型性能迭代升级。
2)构建π∗0.6
π∗0.6是PI 以 π0.6 为基础进行改造,通过模型结构升级+ 价值函数同步联合训练,落地RECAP方法的最终模型。具体实现步骤如下:
首先,对基础模型π0.6进行结构升级,赋予其优势条件化绑定能力。为让模型能融入优势值信息并适配RECAP 强化学习训练,PI对 π0.6的输入层进行拓展,新增一个基于二值化优势指标的性能提升文本输入:当二值化优势指标为真(对应正向优势)时,输入“优势:正向”;当指标为假(对应负向优势)时,输入 “优势:负向”。通过这一设计,π0.6具备了与二值化优势指标的条件化绑定能力,完成向π∗0.6雏形的改造。
其次,同步构建并训练适配的价值函数。该价值函数与π0.6同步启动训练,以VLM为基础完成初始化,且与最终的π∗0.6保持两个一致性:一是语言输入完全相同,二是整体架构设计一致。为平衡性能与效率,其VLM 骨干网络参数量设定为 670M(小于 π0.6的骨干网络参数量),并同样基于Gemma 3 模型完成初始化。同时,为防止价值函数训练过拟合,PI 额外引入少量多模态网络混合数据,对该价值函数开展联合训练,确保其泛化能力。
最后,以RECAP 方法为核心框架,将完成结构升级的 π0.6与训练好的价值函数进行联合训练,让模型依托价值函数反馈的优势信息优化决策策略,最终完成训练得到π∗0.6模型。
RECAP训练过程中 π∗0.6 与价值函数的交互机制(图片来源:PI论文)
备注: VLA 模型π∗0.6采用预训练的VLM作为骨干网络;模型训练遵循 KI 方法框架 ,预训练阶段基于多源数据执行下一词预测任务,同时搭配带梯度停止机制的流匹配型动作专家模块。该 VLA 模型与二值化优势指标进行条件化绑定,此指标由一个独立的价值函数生成 —— 该价值函数以经预训练的小型VLM为基础完成初始化。
4. 使用RECAP后有什么效果?
RECAP 训练方法 —— 一种融合自主试错、奖励反馈与人类介入的VLA模型训练方法。PI验证了基于该方法训练的π∗0.6模型在一系列真实落地任务中的性能,包括意式浓缩饮品制作、多品类衣物折叠与纸箱组装。
每项任务均需多步骤完成,执行时长为5至15分钟,不仅要求机器人具备完成复杂操作行为(受限施力操作、液体倾倒、布料与硬纸板操控等),还需快速执行以实现高任务处理效率。
在此研究中,PI将RECAP方法与多款基准模型展开对比,并设计消融实验以验证核心模块的有效性,对比基准模型如下:
预训练模型π0.5:该基线模型未采用强化学习方法,也未利用RECAP方法。
预训练模型π0.6:未引入优势值指示符I t ,全程基于监督学习完成预训练。
强化学习预训练模型π∗0.6:与配套价值函数协同完成强化学习预训练,且引入了优势值指示符I t 。
π∗0.6(离线强化学习 + 监督微调):以π∗0.6预训练基础模型的检查点为蓝本,利用目标任务的示范数据进行微调得到该模型。
π∗0.6(PI本次研究提出的模型):在目标任务上通过 RECAP 框架完成训练的最终模型,训练数据涵盖机器人的自主滚动执行数据与专家修正数据。
本研究的实验评估采用两项核心指标:任务处理效率与任务成功率。
其中,任务处理效率用于衡量模型每小时成功执行的任务次数,将执行速度与任务成功率整合为一个贴合实际应用场景的量化指标;任务成功率为训练回合的成功占比,由人工标注得到—— 标注人员需依据多维度质量指标对每个回合的执行效果进行评判,研究人员再将这些质量指标整合为最终的成功标签。
该研究实验从以下四个维度开展实验验证:
1) RECAP对模型性能的提升幅度
在所有实验任务中,本研究提出的最终版模型π∗0.6的性能均显著优于基准模型,包括基础有监督预训练π0.6 模型、强化学习预训练π∗0.6模型,以及离线强化学习+ 有监督微调的π∗0.6模型。
在多品类衣物折叠与意式浓缩咖啡制作任务中,引入机器人实机数据后(即从离线强化学习+ 有监督微调的π∗0.6模型优化至最终版π∗0.6模型),模型的任务处理效率提升超一倍,失败率降低约50%。
任务处理效率(图片来源:PI论文)
备注:上图展示了基础款与多品类衣物折叠、意式浓缩咖啡制作及纸箱组装三类任务的每小时成功完成任务数,图中误差棒代表标准误差。
该评估指标可同时衡量模型的任务成功率与执行速度。实验结果表明,将RECAP 方法应用于π∗0.6模型(本研究)时,所有任务的处理效率均实现显著提升;其中RECAP 对多品类衣物折叠与意式浓缩咖啡制作任务的处理效率提升效果最为显著,使两类任务的每小时成功完成量提升超一倍。
对于难度更低的衣物折叠任务(T 恤与短裤),模型在有监督微调阶段的成功率已接近峰值,但最终版模型仍实现了任务处理效率的大幅提升。
针对纸箱组装任务,将整体任务成功率按四个执行阶段进行了细分拆解,分别为:取放扁平硬纸板、纸箱折叠成型、为纸箱粘贴标签、将纸箱放置到物料箱的指定空位。相较于其他对比模型,π∗0.6模型在所有阶段均实现了更高的成功率;而各阶段的失败案例,绝大部分是因模型策略的执行时间耗尽导致。
备注:本图展示了各实验任务的绝对成功率,图中误差棒代表标准误差。RECAP 方法的每一个训练阶段,均实现了全任务的性能提升;其中难度较高的多品类衣物折叠与意式浓缩咖啡制作任务的成功率提升幅度最为显著,对应失败率降低超一半。针对纸箱组装任务,本图单独展示了其各子任务的成功率表现,实验结果表明,RECAP 方法让模型在纸箱组装的所有子任务中,均实现了最稳定且数值最高的成功率表现。
2)RECAP经多轮迭代后对π∗0.6模型性能的提升幅度
研究对象选定为T 恤与短裤折叠任务及纸箱组装任务。
针对T 恤折叠任务,为验证本方法在纯强化学习训练范式下的策略提升效果,PI仅采用自主评估采集的实验数据(无人工修正)完成两轮策略优化;每轮迭代中,在四台机器人上采集300 条轨迹数据。针对纸箱组装任务,则同时采用模型自主执行与专家远程操作员介入修正的实验数据开展训练,每轮迭代采集600组自主执行数据与360组人工介入修正数据。
本实验同时将初始数据采集策略纳入对比基准,该策略以经离线强化学习预训练的π∗0.6模型为基础,结合有监督微调(SFT)完成训练。
实验结果表明,两类任务对应的π∗0.6模型均在两轮迭代中实现性能提升:衣物折叠任务的处理效率呈稳步提升趋势,整体提升幅度达50%;对于长时程的纸箱组装任务,其性能的显著提升需要更多训练数据支撑,处理效率呈现先小幅下降、后大幅提升的变化特征。在第二轮迭代后,模型的任务处理效率实现了一倍提升。
任务处理效率随多轮迭代的提升效果(图片来源:PI论文)
对于衣物折叠任务,首轮迭代已将模型成功率提升至90%以上,第二轮迭代则主要实现了任务处理效率的优化;而纸箱组装任务的成功率在两轮迭代中均呈现明显提升。尽管模型仍存在少量失败案例(尤其在任务最后一步将纸箱叠放至指定堆叠区域时),但最终版策略在规定的 600 秒时间阈值内,完成纸箱折叠成型与标签粘贴的成功率均达到约90%。
任务成功率随多轮迭代的提升效果(图片来源:PI论文)
3)RECAP中基于优势条件的策略提取方法与其他方法的性能对比
本部分将验证RECAP中基于优势条件的策略提取方法,与另外两种经典方法:AWR(优势加权回归)与 PPO(近端策略优化)展开对比,对比实验的研究对象为T 恤与短裤折叠任务。
为保证对比实验的变量可控性,本研究采用训练最终版模型的同一批数据,开展上述所有方法的训练与评估—— 这一设定会为两款基准方法带来小幅优势,因为其可直接使用RECAP训练过程中采集的高质量数据。
实验表明,AWR 与 PPO 虽能取得一定的训练效果,但二者的性能远不及本研究提出的方法,且均难以在离线强化学习+ 有监督微调的π∗0.6模型基础上实现性能突破。
针对PPO 方法,需引入小信任域约束(η=0.01),才能在离策略训练场景中维持训练的稳定性;尽管该约束能保证训练过程不发散,却会导致PPO方法的最终性能表现不佳。AWR方法虽能实现尚可的任务成功率,但其训练得到的策略执行速度显著变慢,最终带来更低的任务处理效率。
不同策略提取方法的性能对比(图片来源:PI论文)
4) RECAP能否以相对少量数据显著调整策略行为并修正特定失效模式?
此前的实验均聚焦于策略性能的整体端到端评估,本部分则进一步聚焦于特定失效模式,验证基于RECAP 的强化学习训练能否消除模型策略中的特定操作错误。
为解答该问题,PI采用成功判定标准较严苛的衣物折叠任务变体,该任务要求模型折叠T恤时实现衣领居中且朝上。每个训练回合均以特定对抗性初始设定启动:将 T 恤平整放置于桌面,该布局下,基准的离线强化学习 + 有监督微调(RL+SFT)策略极易出现折叠失误。
实验结果显示:在此设定下对模型执行两轮RECAP 训练(每轮采集600 条轨迹数据)后,模型的任务成功率达到97%,且保持了高效的执行速度。
由此可得出结论:即便完全通过强化学习完成训练、无任何人工介入修正数据或额外示范数据,RECAP 仍能有效修正模型的特定失效模式。
失效模式修正效果(图片来源:PI论文)
备注:本图展示了将RECAP 方法应用于单品类、高严苛度成功判定标准的衣物折叠任务变体的实验结果。RECAP 在修正这类严苛标准下判定为失败的失效模式方面,表现出极佳的效果;由此可见,本研究提出的方法能够以相对少量的训练数据,高效地修正模型策略的行为模式。
5. RECAP的优化方向
RECAP 方法的核心是一套适配VLA 模型规模化训练的强化学习框架:基于价值函数实现优势条件约束下的策略提取,并通过模型自主滚动执行与人类介入修正相结合的方式采集训练数据—— 既通过人类介入修正模型的操作失误,又利用自主执行数据微调模型的行为细节。
实验结果表明,RECAP 能同时提升VLA模型的任务成功率与处理效率:在部分高难度任务中,模型处理效率提升超一倍,失败次数减少约50%。
然而,PI认为本研究提出的 RECAP 方法仍存在多个可优化的方向,具体如下:
系统尚未实现完全自主化:模型训练的奖励反馈、人工介入修正与训练回合重置环节,仍依赖人工标注与人力投入。已有多项研究探索了上述环节的自动化实现方案,而VLA 模型为实现更高自动化程度的数据采集提供了新路径,例如可通过高层策略让模型自主推理并完成场景重置。
探索策略的设计仍相对简单:当前模型的探索方式以“贪心策略”为主,主要依赖策略自身的随机性与人类介入来探索新的任务解决方案。当初始模仿学习策略已能生成合理的操作行为时,该探索方式具备一定合理性,但引入更精细化的探索方法,仍能为模型性能带来显著提升。
采用迭代式离线更新模式:RECAP采用“批量采集数据→ 重新训练模型→ 重复执行”的迭代式离线更新模式,而非数据采集与策略、价值函数实时更新同步进行的全在线强化学习循环。本研究选择该模式是为便于实验实施,而将RECAP拓展为全并行的在线强化学习框架,将成为未来研究的重要方向。
三、VLA模型中出现人机技能迁移涌现现象
1. 从人类到机器人的技能迁移
诸如π0.5 这样的VLA模型,通过在大规模多样化数据集(涵盖多种机器人数据及网络数据)上训练,能够显著提升开放世界中的泛化能力。那么,随着模型规模的扩大,它们是否会获得利用新数据源的涌现能力呢?
受大语言模型相关研究的启发,近期诸多研究发现:模型对特定数据源的利用能力与模型规模存在内在关联,这一规律在具身VLA模型中同样得到印证。例如,小尺度模型难以有效利用多样化指令微调数据集,而大尺度模型可进化为通用型模型,高效吸收多元数据并泛化至全新任务。
相关研究已证实:当机器人训练数据量积累至临界规模时,机器VLA模型会自然涌现出从人类视频到机器人任务的跨域技能迁移能力。
谈起人类视频数据,Physical Intelligence公司(以下简称“PI”)尤其关注这一类数据源—— 人类第一视角视频 (可通过可穿戴相机录制)。此类数据采集便捷、成本低廉,但应用于机器人训练时面临核心挑战:人机领域差异(Domain Gap)。由于人类与机器人的躯体形态、运动模式截然不同,机器人无法直接模仿人类动作进行学习。
现有研究中,利用这类数据训练机器人往往需要引入人工对齐手段,例如对图像局部做掩码处理、通过生成模型将人类手部动作转换为机械手动作;部分方案甚至从硬件层面调整,如采用仿人机器人,以此适配人类动作模式。这类方法虽能实现一定程度的人机动作迁移,却往往以牺牲模型通用性为代价。
由此引出又一个关键问题:仅通过扩大机器人基础模型规模,能否在不引入任何显式迁移学习机制的前提下,让模型自然涌现出从人类到机器人的跨域技能迁移能力?
2. 基于人类第一视角数据的联合训练
围绕上述问题,PI 开发了基于人类第一视角数据的联合训练方案,并获得重要发现:当VLA 模型在包含足够多场景、任务与具身形态的数据上完成预训练后,人机跨域技能迁移能力会自然涌现。其原因在于,多样化预训练让模型学到了与具身形态无关的通用任务表征—— 即捕捉动作的本质逻辑,而非表层形态特征,从而跨越了人机领域差异。
该联合训练方案的创新在于:将人类视频数据视作一种额外的具身形态,采用与机器人数据训练完全一致的优化目标。
具体而言,该方案通过双重预测任务对齐训练目标,与机器人预训练阶段保持高度一致:一方面,借助3D手部追踪技术提取人类动作信息,预测人类底层末端执行器轨迹;另一方面,依托密集语言标注,预测高层子任务逻辑。
随后,PI 将这类标准化处理后的人类数据,与相关机器人数据混合输入模型,开展联合微调,并专门在仅出现于人类数据中的场景中,对模型性能进行针对性评估,以此验证人机技能迁移效果。
PI 在四项泛化基准任务中进行了量化分析,这些任务从不同维度全面考察人机技能迁移能力,涵盖未见过的公寓场景(场景泛化)、全新的物体类别(物体泛化)以及新的任务语义表述(任务泛化)。
通过从任务、场景、具身形态三个维度,持续扩充机器人预训练数据的多样性,以此验证预训练后的VLA 模型,在后续联合微调阶段对人类视频数据的利用效率及知识迁移效能。
人类数据带来的单任务性能提升(图片来源:PI论文)
备注:通过“机器人 + 人类混合数据微调” 与 “仅机器人数据微调” 两种策略的性能差值,单独量化了人类监督数据带来的性能增益。
实验结果显示,当预训练数据覆盖足够多样化的任务、场景与具身形态时,人类数据带来的性能增益达到峰值。这一现象充分表明,全面且多元的预训练,能有效强化从人类视频到机器人的跨域技能迁移效果。
以鸡蛋分拣任务为例:机器人预训练数据仅覆盖“将鸡蛋放入蛋托” 的基础动作,未包含任何分拣规则;而人类视频数据则明确了 “按不同颜色将鸡蛋分别放入对应蛋托” 的具体语义规则。通过对比模型在该任务上的表现,可直接验证人类数据对机器人未知任务能力的补充价值。
那么,为什么多样化预训练对人机技能迁移至关重要?PI 通过进一步研究揭示了其内在机制:随着预训练数据多样性的提升,人类数据与机器人数据在模型中的隐式表征会实现自然对齐。
这意味着,即便人类与机器人之间存在显著的视觉域移(外形差异)与运动学域移(动作模式差异),只要预训练数据的覆盖度足够全面,模型仍能突破具身形态的表层差异,学习到与具身形态无关的通用任务表征—— 即捕捉动作的本质逻辑与语义关联,而非依赖特定形态的表层特征。
为确保结论的可靠性,PI 通过 “定量 + 定性” 两类实验形成验证闭环:
一方面,通过泛化任务的性能指标(如成功率、准确率)完成定量验证,直观体现模型技能迁移的效果;
另一方面,通过分析不同具身形态数据对应的隐式嵌入结构,从模型表征层面完成定性验证,揭示人机数据隐式对齐的内在机制。
3. 实验发现
本研究采用π0.5模型作为基础模型,在人类与机器人混合数据上,结合高层子任务预测与底层动作预测两大目标开展模型微调。其中,底层动作预测模块,利用了跨人类与机器人完成对齐的相对末端执行器动作作为核心特征。
π0.5模型架构(图片来源:PI论文)
1)“ π0.5 + ego”训练方案实现对未见过的场景、物体与任务的泛化
实验结果显示:在场景与物体泛化方面,任务得分在联合训练后均实现大幅提升。其中,调料架整理任务的得分从32%提升至71%、梳妆台整理任务从25%提升至50%、餐桌清理任务从53%提升至63%。
然而,在鸡蛋分拣任务中,模型从人类视频中实现了显著的任务级技能迁移:仅在机器人数据上训练的模型(π0.5),虽具备拾取和放置鸡蛋的基础操作技能,却完全无分拣的概念,仅能将鸡蛋随机放入蛋托(分拣准确率57%)。相比之下,与人类鸡蛋分拣视频数据完成联合训练后,机器人策略(π0.5 + ego)的鸡蛋分拣准确率达到78%,且平均比原始π0.5模型多正确放置4 枚鸡蛋。
基于π0.5微调实现的人机技能迁移(图片来源:PI论文)
备注:1)π0.5表示仅使用机器人数据进行微调;π0.5+ego表示使用机器人数据和第一视角人类视频数据进行联合微调训练。2)bussing - 收拾餐桌;Spice - 调料架整理 ;Dresser - 梳妆台整理;Eggs - 鸡蛋分拣。
2) 人机技能迁移效果将随预训练VLA模型的数据多样性提升而持续优化
为评估VLA 预训练对人机技能迁移的影响,PI将实验的初始预训练模型替换为以下预训练多样性逐步提升的版本:
0%:仅采用基础VLM模型初始化;
25%、50%、75%、100%:在多样性逐步提升的机器人数据上完成预训练的VLA 模型,对应本研究数据集中 [场景 - 任务] 组合全多样性的不同比例,且训练数据均限定在目标机器人具身形态范围内:ARX机械臂与移动版ARX机械臂;
100% + X-emb:π0.5 模型的完整VLA预训练混合数据集。该数据集还纳入了Physical Intelligence 团队的相关研究数据 ,其中额外包含了多种非目标机器人具身形态的相关数据。
基于上述每一种预训练初始化版本,均训练两组对照模型:一组仅使用数据集中最相似任务的机器人遥操作数据,另一组额外加入对应任务的人类具身数据。通过该对照实验,可量化多样化预训练对人机技能迁移效果的实际影响。
在不同预训练模型规模下,对比使用人类数据与未使用人类数据的模型间的性能分数差值。(该差值代表人机技能迁移的幅度,且该幅度由预训练数据的多样性决定。)
实验发现:人机技能迁移效果随预训练数据多样性的提升呈显著增强趋势:
a. 在无预训练或低程度预训练阶段(0%、25%),VLA 模型无法从人类数据的联合训练中获得任何增益;
b. 在多样化数据上完成预训练的VLA 模型(75%、100%),能从人类数据联合训练中取得显著的性能提升。
c. 当预训练数据进一步拓展为跨具身形态的异构混合数据(包含多种非目标机器人具身形态的训练数据)时,人机技能迁移效果将得到进一步提升。
鸡蛋分拣任务泛化性能的规模化趋势(图片来源:PI论文)
备注:在鸡蛋分拣任务中,仅基于机器人数据微调的鸡蛋分拣任务性能,即便预训练数据的多样性持续提升,仍会陷入性能瓶颈;然而,基于人类+ 机器人数据联合微调的模型性能,随预训练数据多样性的提升呈显著陡增趋势。
3) 与具身形态无关的通用表征随预训练规模自然涌现
PI对联合训练后人类与机器人数据的视觉Token开展TSNE 降维分析。
实验发现:在预训练效果较差的阶段,模型对不同具身形态数据的表征呈完全分离状态,这表明模型是对不同具身形态的数据分布进行独立拟合;而随着预训练数据多样性的提升,不同具身形态的表征开始逐步趋同,这意味着模型已为人类与机器人两类具身形态构建出统一的特征表征。
由此可以判断,多样化预训练有助于模型学习到与具身形态无关的通用表征,而这类表征又能反过来提升人机技能迁移的效果。
人类与机器人数据的VLA 表征(图片来源:PI论文)
备注:本图通过对VLM骨干网络最后一层的均值池化视觉Token开展TSNE 降维分析,绘制出 VLA 模型对人机数据的隐式嵌入特征分布。在未进行预训练的情况下,模型对人类与机器人数据的表征呈现完全分离的状态;而随着预训练数据的多样性不断提升,两类数据的隐式嵌入重叠度逐步增加,且这一重叠度与模型在泛化任务上的性能表现呈正相关。
4) 人机技能迁移与跨具身形态的机机技能迁移具有相似的特性
在混合训练数据中,人类数据可以被当作另一类机器人具身形态数据直接利用。在实验中,将人类数据与为基准任务专门采集目标机器人数据分别开展微调后的模型性能进行对比。
人类数据与目标机器人数据的性能对比(图片来源:PI论文)
实验结果显示:在鸡蛋分拣、梳妆台整理任务上,利用人类数据开展微调的效果,与利用目标机器人自身的域内数据微调的效果几乎相当(发现用等量的人类数据(黄色柱)与机器人数据(灰色柱)微调后,模型性能相当;)。而在餐桌清理任务中,基于目标机器人数据的微调后模型的性能显著优于单独基于人类数据微调后的模型。
另外,在收拾餐桌任务中,对于了人类数据与另一款机器人数据(基于UR5机器人上采集了400条示范数据(7.45小时)),向ARX机器人的技能迁移效果。
实验发现:人类数据向ARX 机器人的迁移与UR5 数据向 ARX 机器人的迁移呈现出相似的趋势—— 二者的迁移效果均超过基线性能,但均未达到目标机器人具身形态数据的迁移效果。这一结果表明,人机技能迁移与跨具身形态的机机技能迁移具有相似的特性。
人类数据与跨具身形态机器人数据的性能对比(图片来源:PI论文)
5) 人机技能迁移同时发生在高层语义与底层动作两个表征层级
上面的实验已经证明:技能可以从人类数据迁移到机器人上。但是,人类数据仅能为机器人迁移“高层” 语义概念,还是也能同步迁移“底层” 动作预测能力 ?
针对这一问题,PI按任务类型开展分层验证:对于餐桌清理与鸡蛋分拣任务,研究人员在模型评估阶段未启用高层策略,因此这类任务中的技能迁移仅能来源于底层动作预测。
而对于调料架整理、梳妆台整理这两类任务,评估的是高层+底层的联合策略(HL+LL),并通过消融实验验证两个层级各自的迁移贡献—— 具体测试了四组对照模型:
robot-only (HL+LL):高层(仅机器人数据训练)+ 底层(仅机器人数据训练)
robot-only HL + cotrained LL:高层(仅机器人数据训练)+底层(机器人数据+人类视频数据进行联合训练)
cotrained HL + robot-only LL:高层(机器人数据+人类视频数据进行联合训练)+ 底层(仅机器人数据训练)
cotrained(HL+ LL):高层(机器人数据+人类视频数据进行联合训练)+底层(机器人数据+人类视频数据进行联合训练)
高层迁移与底层迁移对比(图片来源:PI论文)
实验结果显示:仅将人类数据用于训练高层策略或底层策略其中之一,效果均远不如对两个层级同时开展人类数据联合训练,这表明,人机技能迁移同时发生在高层语义与底层动作两个表征层级。
当仅对高层策略引入人类数据、底层策略仅用机器人数据训练时,底层动作策略无法正确执行高层的语义指令,出现明显的指令误解读故障。例如在调料架整理任务中,观察到典型故障模式:高层指令要求“拿起调料瓶”,但底层策略却错误地拾取已放置在托盘上的调料瓶;而在梳妆台整理任务中,当高层指令要求 “将项链放进首饰盒” 时,底层策略有时会将项链误放入梳妆台的杂物整理盒中。
同理,当仅对底层策略引入人类数据、高层策略仍为纯机器人数据训练时,高层策略会持续输出错误的语义指令,导致任务进程受阻。例如在调料架整理任务中,即便调料瓶早已被拾取完毕,高层策略仍会持续预测“拿起调料瓶” 的指令,直接停滞任务进程;而在梳妆台整理任务中,高层策略常输出错误动作指令,比如要求 “将发夹放在梳妆台台面上”,而非正确的 “将发夹放入整理盒中”。
6) 引入腕部相机:缩小感知传感器差异,提升人机技能迁移效果
为缓解人类与机器人之间的感知传感器差异,PI选择通过在腕部佩戴小型相机采集人类数据,以此模拟机械臂上搭载的腕部相机,验证人类视频数据在包含/不含腕部相机观测信息两种情况下的任务迁移效果。
实验结果显示:在梳妆台整理与餐桌清理任务中,借助人类佩戴的腕部相机,任务迁移效果得到提升;而在调料架整理、鸡蛋分拣任务中,任务迁移效果并未从腕部相机带来的额外观测视角中获益。也就是说,并非所有任务都能借助该设备实现性能提升。
人类穿戴的腕部相机所产生的性能影响(图片来源:PI论文)
研究人员认为,原因在于不同任务对腕部相机可观测性的依赖程度存在差异。但是,通过腕部佩戴式相机采集具身人类数据,能最大程度覆盖各类潜在任务的场景范围。
4. 未来研究方向
本研究基于提出的π0.5+ego 训练框架,对人机技能迁移的涌现特性进行了系统探究。实验表明,当预训练数据多样性低于临界阈值时,VLA 模型难以从人类数据中实现有效迁移;而一旦多样性突破该阈值,迁移能力便呈现显著涌现。
该框架虽依托大规模机器人遥操作数据进行预训练,但最终仅通过数十小时目标导向采集的人类数据(均为阶段性任务数据),即实现了高效的技能迁移,体现了其对人类数据的高效利用能力。
未来,研究团队计划逐步构建大规模的具身化人类数据集,该数据集不仅会涵盖阶段性任务数据,还将纳入人类日常活动被动观测数据,进一步提升数据多样性与场景覆盖度。
更大规模的VLA 模型,不仅能直接提升各类任务的执行性能,更有望解锁全新的模型能力维度;这类新能力将助力研究人员挖掘以往难以开发利用的数据源,实现更高效的跨域知识迁移,进而推动机器人基础模型向更大规模、更强泛化的方向持续发展。
原文标题 : PI VLA模型解读系列(三):从π0.6模型到人机技能迁移涌现现象