上一篇文章:PI VLA模型解读系列(一):从π0模型到Hi Robot 主要围绕π0模型、FAST动作分词器以及分层交互机器人系统Hi Robot展开介绍。本文将衔接上一篇内容,继续介绍Physical Intelligence(以下简称“PI”)在具身智能VLA模型方面的发展情况:
2025年4月,PI发布了具身智能VLA模型π0.5,该模型采用多源异构数据进行协同训练,其开放世界泛化能力得到显著提升。
2025年5月,PI 提出 “知识绝缘 VLA”(Knowledge-Insulated VLA,
π0.5-KI)新范式 —— 通过将动作专家模块模块化“嫁接”至 VLM 架构,同时避免侵蚀 VLM 预训练阶段积累的大规模语义知识,最终达成 “快速训练效率、优异语义泛化能力与高精度运动控制” 的三重技术目标。
2025年6月,PI开发了实时动作分块算法(Real-Time Action Chunking
)。该算法能够在确保动作连续性的前提下实现实时执行,并且适用于任何基于扩散或流匹配的VLA模型(包括π0.5),无需在训练阶段进行任何改动。
一、 π0.5模型
1. 从π0 升级到π0.5
视觉-语言-动作模型(VLA)架构具备高度的模态灵活性,能够将多模态输入(如视觉、语言)映射为包含动作在内的统一Token输出序列。这一特性使其突破了传统迁移学习中仅依赖权重初始化的局限,极大地拓展了设计空间:VLA支持在单一架构上,对机器人动作模仿数据及任何包含上述模态的通用数据集进行协同训练。
研究表明,利用视觉-语言模型(VLM)训练所用的混合数据集对VLA进行协同训练,能有效提升模型泛化能力,使其在面对新物体或未知场景时表现更优。基于此,Physical Intelligence(以下简称“PI”)以π0模型为基础,通过引入多源数据构建了π0.5模型,该模型能够操控移动机械臂完成多种家庭任务,并成功迁移至训练中从未见过的住宅环境,执行复杂长时序任务的能力,例如π0.5模型能在未训练完全陌生住宅环境中操控移动操作臂,完成挂毛巾、整理床铺等精细任务,且可执行时长为10至15分钟的长时程操控技能。
尽管多任务与协同训练并非全新概念,但PI此次的研究工作通过特定的数据组合方式,进一步突破了仅使用VLM数据进行协同训练的常规做法,设计了一套能够融合更广泛机器人监督信号的训练系统。这些信号包括其他机器人数据集、高层语义子任务的预测结果以及人类语言指令等。
π0.5模型- 从多样化异构数据源中迁移知识(图片来源:PI论文)
2. π0.5模型介绍
π0.5采用分层架构设计,整体上遵循“预训练 - 后训练(专项微调)- 分层推理”的流程,兼顾长时段任务推理与多层次知识融合的能力。
1)训练流程
模型训练分为预训练和后训练(专项微调)两个阶段,层层递进适配机器人移动操控任务:
预训练阶段:以异构混合训练任务集为基础开展通用预训练,为模型奠定多任务推理的基础能力;
专项微调阶段:针对机器人移动操控任务进行定向微调,微调数据采用高低层级双样本融合模式,既包含低层级机器人动作样本,也涵盖高层级“语义化” 动作样本(对应 “拿起切菜板”“整理枕头” 等子任务标签预测样本)。
2)推理机制
在每一步推理中,模型执行如下两步流程:
高层推理:预测语义子任务,结合任务结构与场景语义,推断下一步应执行的适宜行为,输出抽象的语义子任务指令;
低层推理:以高层推理输出的语义子任务为指导,精准预测低层级的机器人动作块,将抽象语义转化为机器人可执行的具体动作。
注:高层推理与低层推理集成于同一模型中,而非使用两个独立模型。此举使得语言推理与离散动作输出能够联合优化,实现更佳的端到端协同效果。
3)架构核心能力
该简洁分层架构兼具两大核心能力,支撑机器人处理复杂移动操控任务:
长时程多阶段任务推理能力:依托高低层一体化的推理逻辑,实现对多步骤、长周期复杂任务的连续决策与流程把控;
两级任务知识源适配能力:高层推理和低层推理可根据任务特性,分别调用相匹配的知识源,实现数据与任务的精准适配。
4)π0.5 与π0模型架构区别
π0与π0.5在模型架构上的核心差异集中于双专家架构设计及时序建模机制。
在双专家架构层面,π0采用稀疏混合专家(MOE)Transformer,动作专家需接收机器人本体感知状态与动作信息输入,通过固定拼接+MLP与VLM专家交互,路径僵化且受环境约束强。π0.5优化为改进型架构,动作专家彻底摒弃机器人本体感知状态输入,仅处理动作序列。
在时序建模层面,π0采用静态拼接与固定归一化层,时序能力有限;π0.5则通过改进的动态归一化等技术增强时序建模能力,并采用“离散动作Token预训练+流匹配微调”的混合范式,以高效处理长序列任务。
3. π0.5模型训练
π0.5模型的训练分为预训练与后训练两个递进阶段,预训练阶段聚焦模型对多样化机器人任务的适配能力构建,后训练阶段则针对性优化移动操控任务适配性,并为模型搭建高效测试时推理机制,实现从通用能力到专项能力的精准落地。
π0.5模型训练(图片来源:PI论文)
1)预训练阶段
第一阶段为预训练,核心目标是构建基于离散Token的初始视觉-语言-动作(VLA)模型,使其具备跨场景机器人任务的基础推理能力。本阶段采用多源异构数据源进行融合训练,数据范围涵盖移动机器人操作臂数据(MM)、多样化环境中的非移动机器人数据(ME)、实验室环境下采集的跨本体数据(CE)、高层级子任务预测数据(HL)及多模态网络数据(WD)。
针对机器人动作数据,通过FAST动作分词器将其转换为离散Token格式,确保动作信息可与文本、目标位置信息统一表征。模型采用标准自回归Transformer架构训练,核心任务设定为对文本、目标位置及FAST编码后的动作Token进行下一个Token预测,夯实多模态信息融合与序列预测的基础能力。
2)后训练阶段
第二阶段为后训练(专项微调),PI聚焦两大核心目标:一是使模型精准适配住宅环境下的移动操控任务场景;二是为模型新增动作专家模块,通过流匹配方法表征动作分布,既保障推理过程的高效实时性,又能精准刻画细粒度连续动作序列。
本阶段采用联合训练策略:一方面保留预训练阶段的“下一个Token预测”任务,维持模型原有的文本与多模态序列预测能力;另一方面针对新增的动作专家模块开展流匹配训练(模块权重在后训练初期采用随机初始化方式)。
数据层面,后训练基于与移动操控任务高度相关的数据集开展。在预训练阶段数据的基础上进行数据筛选与补充:新增语言指令演示数据(VI),剔除实验室跨本体数据(CE),确保模型聚焦核心任务与多样化真实环境适配;保留网络数据(WD)以维持语义与视觉能力,同步纳入与多环境数据集对应的高层级子任务预测数据(HL)片段,强化高低层推理的协同性。
3)训练数据类型与分布
π0.5模型训练依托多源异构数据支撑,各类数据的定义、来源及特性如下:
移动机器人操作臂数据(MM):包含约400小时真实家庭环境下多场景采集的可移动机器人操作臂数据,是目标任务场景的核心基础数据。
多环境非移动机器人数据(ME):由固定单臂或双臂机器人在多种家庭环境中采集的操作数据,为低层级动作推理提供补充样本。
跨本体实验室数据(CE):采集于实验室环境,涵盖多类型机器人(单臂/双臂操作臂、静态基座/移动基座机器人)及多种任务,同时整合开源数据集OXE,仅用于预训练阶段,后训练阶段予以剔除。
高层级子任务预测数据(HL):针对MM、ME、CE数据中涉及多子任务的机器人操作数据,手动添加子任务语义描述标注生成,为高层推理提供语义支撑。
多模态网络数据(WD):涵盖图像描述、视觉问答、目标定位任务等多类数据,用于维持模型的语义理解与视觉感知能力,贯穿预训练与后训练阶段。
语言指令演示数据(VI):由专家用户通过“语言演示”构建,专家分步选择合适的子任务指令操控机器人执行移动操控任务,数据通过“远程操控”方式采集,仅用于后训练阶段。
预训练与后训练任务示例(图片来源:PI论文)
数据分布特点:预训练阶段97.6%的数据来自非目标机器人平台(包括ME、CE、WD),仅2.4%的数据来自目标移动机器人(MM)。这一分布表明,模型的通用能力主要依托非目标场景数据源构建,目标机器人数据则用于精准锚定移动操控核心任务,实现多源数据的互补增效。
4. 实验结果
PI此次的研究实验主要围绕以下5个主要问题展开:
1)π0.5能否在完全陌生的住宅环境中,有效泛化至复杂的多阶段任务?
在实验中,PI通过向模型下达简单的高层级指令(例如“将餐具放入水槽”),模型通过高层级推理过程便可自主规划出合理步骤(例如“拿起杯子”)。无论是从模型需应对新环境的能力,还是任务时长与复杂度来看,模型在真实场景下的泛化能力,都显著优于以往VLA模型所展现的结果。
真实住宅环境评估结果(图片来源:PI论文)
在三处未纳入训练集的真实住宅环境中,PI对三间厨房和三间卧室开展π0.5评估实验,测试任务包括“物品放入抽屉”“衣物放入洗衣篮”及“餐具放入水槽”。实验结果表明,π0.5在这些完全陌生的真实住宅环境中,均能成功完成上述任务。
2)π0.5的泛化能力如何随训练数据中不同环境的数量变化而变化?
PI通过调整移动机器人操作臂数据(MM)的环境数量(分别采用3个、12个、22个、53个、82个及104个场景的数据开展训练),以此评估环境数量对泛化能力的影响。
开展了两组评估实验:多阶段任务整体性能评估和模型遵循语言指令及与全新物品交互的能力的评估。
第一组评估实验结果表明:随着训练场景数量的增加,各任务的平均性能整体呈提升趋势。
不同场景数量下的性能评估结果(图片来源:PI论文)
备注:四项测试任务(“餐具放入水槽”“物品装入抽屉”“衣物放入洗衣篮”“整理床铺”)的性能随训练环境数量的增加而提升。绿色虚线及绿色柱形代表在训练集中纳入测试住宅数据的基准模型。
第二组评估试验结果表明:随着训练数据中场景数量的增加,机器人的语言指令遵循性能与成功率均呈提升趋势。
不同训练场景数量下的语言指令遵循能力评估结果(图片来源:PI论文)
3)π0.5训练数据集中各协同训练成分对其最终性能有何贡献?
PI做了两组评估实验:模拟住宅中的端到端任务性能的评估和语言指令遵循能力的评估。
第一组评估实验:在四项测试任务中,对移除训练方案不同部分的模型变体进行评估(每种策略及任务各执行10次实验)。
实验表明:纳入多环境非移动机器人数据(ME)与跨本体实验室数据(CE)对实现优异性能至关重要—— 移除其中一类或两类数据源,都会导致性能大幅下降。网络数据(WD)在本实验中未产生显著影响,但其对物品泛化能力及高层级任务性能具有重要作用。
训练方案消融实验结果(模拟住宅环境)(图片来源:PI论文)
第二组评估实验:在不同场景数量数据上训练后,PI评估模型对分布内及分布外物品的语言指令遵循能力。
实验表明:纳入网络数据(WD)对分布外(OOD)物品性能尤为重要;跨本体实验室数据(CE)与多环境非移动机器人数据(ME)则对分布内和分布外物品的性能均有显著影响。
训练方案消融实验结果(语言指令遵循任务)(图片来源:PI论文)
4)π0.5与π0 VLA模型相比表现如何?
PI将π0.5与原始π0VLA模型及π0的改进版本(记为π0-FAST+Flow)进行对比。为保证对比的公平性,所有模型均使用相同的跨形态机器人训练集,且训练步数大致相当。
三者的核心差异如下:(1)π0.5额外使用了HL和WD数据;(2)π0.5采用混合训练流程,预训练阶段进行离散Token化训练,仅在后训练阶段通过流匹配动作专家训练;而π0始终使用动作专家训练。π0-FAST+Flow虽遵循混合训练流程,但仅基于机器人动作数据训练,无法执行高层级推理。
实验结果显示:π0.5的性能显著优于π0及改进版本。
π0.5与其他模型对比结果(图片来源:PI论文)
5)π0.5的高层级推理组件重要性如何?其与扁平式低层级推理及先知高层级基准模型相比表现怎样?
π0.5采用统一架构,由同一模型同时执行高层级推理与低层级推理任务。在此基础上,PI构建了两类基线模型以作对比:一类是舍弃高层级推理过程,直接将任务提示输入低层级系统;另一类是采用其他模型执行高层级推理,通过这种方式剥离不同数据集成分对高层级策略的影响,进而分析其重要性。
实验结果显示:具备高层级与低层级推理能力的完整π0.5模型取得最佳结果,而仅采用低层级推理的方案(“隐式HL组”),因在训练中纳入了高层级子任务样本,同样获得了性能增益。相比之下,移除语言指令演示数据(无VI组)或网络数据(无WD组)会导致性能显著下降,且对大型API模型(GPT-4)进行零样本提示的方案表现更差。
参考资料:
1.博客:π0.5: a VLA with Open-World Generalization
https://www.pi.website/blog/pi05
2.论文:π0.5: a Vision-Language-Action Model with Open-World Generalization
https://arxiv.org/pdf/2504.16054
二、 π0.5+KI 模型
1. VLA模型的主流构建方式
近年来,视觉-语言-动作模型(VLA)被视为实现高泛化性机器人控制的一种极具前景的技术路径 。目前,业界构建VLA的主流思路是:对预训练视觉-语言模型(VLM)进行微调,使其能够以图像观测、机器人本体感知状态以及自然语言指令作为输入,输出机器人动作。
此类方法能有效利用大规模机器人数据集进行训练,并已被证实可以迁移VLM从海量网络数据中习得的先验知识,从而显著提升模型在面对新场景、新对象时的泛化能力。
然而,将VLM适配为VLA面临一个根本性矛盾:VLM的运行基础是离散型Token,其输出也多为离散化的文本或视觉特征表征;而机器人控制任务的核心需求是连续值指令,例如关节角度、末端执行器位姿、运动速度等连续物理参数,这类指令不仅要求数值精准,还需高频、实时地生成,以保障机器人动作的流畅性与控制精度。
采用动作分块的表征形式可以有效缓解这一矛盾。目前,动作分块解决方案主要有两大类:
1)朴素离散化
将机器人每个动作的每个维度都离散化,每个离散化区间关联一个特殊的文本Token 。通过这种方式,一个包含H个时间步、d个动作维度的动作块 a1:H 被映射为 H·d 个Tokens。机器人动作预测因此被构建为下一个Token预测问题,模型可像训练非机器人专用的视觉语言模型(VLM)一样,使用交叉熵损失进行训练。
这种方法虽然简单直接,但缺点显著:对于高频、高维系统,所需的Token数量会急剧增长,导致计算成本高昂且训练收敛缓慢。
2)时间动作抽象
为克服上述缺陷,研究人员提出了如PRISE 、FAST等方法,通过对动作序列在时间维度上进行压缩(例如应用离散余弦变换,再进行量化和编码),生成更紧凑的动作Token表示。其核心优势是大幅减少 Token 数量、降低计算开销,能在一定程度上提升效率,但本质上仍属于离散表征范畴。
动作分块表征虽能有效弥合VLM 与机器人控制的表征差异,却难以完全满足机器人对实时、连续、精准控制的核心诉求,因此需依托模型架构设计进一步突破,当前主流解决方案便是在 VLM 骨干之上增设专用的连续输入/输出适配器。其中,输出适配器常采用扩散模型或流匹配等连续生成建模技术,直接学习并输出复杂的连续动作分布,从而赋能机器人完成灵巧操作任务。
然而,这种“嫁接”适配器的方式又引入了一个新的关键挑战:新增的、为连续控制而初始化的模块(如扩散头或动作专家),在训练过程中产生的梯度会反向传播并干扰原始的VLM骨干网络。这可能导致VLM宝贵的预训练知识被破坏或遗忘,反而损害其语义理解与泛化能力。
因此,当前VLA研究的核心问题在于:如何设计训练方法,使得VLM在增强其连续动作输出能力、转变为VLA的同时,能够最大程度地保留并利用其从网络规模预训练中获得的全方位知识?
2. VLA模型的演进
1)第一代VLA:基于动作离散化的初步尝试
以RT-2(Robotic Transformer 2)、OpenVLA为代表的早期VLA模型(可称为“第一代VLA”),采用了朴素离散化动作分块方案,将连续机器人控制指令(如关节角度、末端执行器位姿、运动速度等多维参数)映射为离散Token序列输出。
此类模型验证了VLM通过离散动作Token控制机器人的可行性,能够在结构化环境中完成物体抓取等基础操作,但其离散化动作表征存在明显局限:
精度不足:离散区间划分导致动作输出粒度粗糙,无法满足高精度控制要求。
效率低下:为表达复杂动作序列所需的大量Token增加了计算负担,导致训练收敛缓慢、推理延迟显著。
扩展性差:难以适应高频、高流畅性以及动态交互任务的需求。
2)第二代VLA:引入连续动作专家
以π0为代表的第二代VLA突破了离散化限制,通过在VLM骨干网络上嫁接一个专门负责连续动作生成的模块(常称为“动作专家”或“动作头”)。该模块通常基于扩散模型或流匹配等连续生成技术,能够直接输出平滑、精确的关节角度或末端轨迹。
这种方式使VLA具备了执行灵巧操作(如衣物折叠)的能力,并支持实时高频控制。
然而,由于动作专家模块是随机初始化的,其训练过程中产生的梯度会反向传播至VLM骨干网络,干扰原有参数,会引发复杂的学习动态问题,进而破坏VLM 的内部表征。这将导致:
模型的学习效率大幅下降;
遵循语言指令能力下降—— VLM骨干网络丢失一部分在大规模网络数据预训练阶段习得的知识。
“动作专家”梯度的反向传播(图片来源:PI博客)
备注: 在预训练视觉语言模型(VLM)骨干网络上简单添加动作专家模块以构建视觉语言动作模型(VLA)时,动作专家传递至 VLM 骨干网络的梯度,会对骨干网络中的特征表征产生不利影响。
根据Physical Intelligence(简称“PI”)的实验经验,基于自回归离散动作的模型(如π0-FAST)虽可避免该问题,但由于其自回归推理过程计算开销大、效率低,这类模型完成任务的速度要慢得多,依然无法满足高实时控制要求。
因此,第二代VLA的核心矛盾在于:如何在实现高效连续控制的同时,保护VLM的预训练知识不被破坏?
这直接催生了后续以“知识隔离”为代表的训练范式的探索。
3. 现有VLA模型训练方案存在的问题
现有VLA的训练方案主要面临三类相互关联的瓶颈,它们共同制约着模型在性能、效率与知识保留之间的平衡:
1)自回归 VLA 推理速度慢
以π0-FAST为代表的自回归VLA,将连续动作预测转换为离散化的“下一个Token预测”任务。这种设计虽然避免了连续梯度干扰,但带来了严重的效率问题:推理过程必须串行进行,导致显著的延迟。
例如,在RTX 4090 显卡上,π0-FAST 模型预测 1 秒时长的动作分块需耗时约 750 ms。正如PI研究实验所验证的,这种延迟会引发动态失配问题,同时导致机器人整体运动轨迹的执行速度变慢,无法满足实时交互任务的需求。
2)引入连续动作生成模块难以充分继承VLM的预训练知识
为提升推理速度,以π0、GROOT 为代表的模型引入了专门的连续动作生成模块,典型如基于流匹配或扩散技术的动作专家模块,实现高频连续控制。
例如,π0架构中的动作专家模块,其参数量远少于VLM 骨干网络,因此 π0的控制频率可达10Hz,远超自回归VLA的1.3Hz。
尽管这些轻量级模块能高效实现高频控制,但其核心参数为随机初始化,且与VLM 骨干网络采用分离权重设计,无法充分继承 VLM 的预训练知识。因此,即便模型的视觉编码器、语言骨干网络源自预训练 VLM(如 π0基于PaliGemma 初始化),其 “运动控制” 核心能力仍需依托机器人数据从头学习,难以借助 VLM 已有的通用语义与视觉表征实现迁移,本质是机器人特定模块与 VLM 预训练知识的协同不足。
3)简单冻结VLM骨干网络策略难以奏效
一个直观的解决方案是冻结VLM骨干网络,仅对新增的机器人专用权重开展训练,以期完全保留预训练知识。
然而,由于现有VLM并非基于机器人控制数据预训练,其冻结的特征表示与下游控制任务存在表征鸿沟,无法为高性能策略提供足够的信息支撑,最终导致模型性能低下。
因此,VLM骨干网络必须在适应机器人任务的过程中进行微调,但微调又可能损害其原有知识——这构成了一个核心的两难困境。
4. VLA改进训练方案 —— 知识隔离
为系统解决VLA训练中的知识遗忘、效率低下等核心问题,PI基于对现有模型的深入分析,提出了统一的 “知识隔离”训练框架 —— π0.5+KI。
该研究始于PI对其先前两类模型的剖析:
π0模型虽通过连续动作专家实现了高效灵巧控制,但其训练过程中,动作专家的梯度会严重干扰VLM骨干网络,导致语义能力下降与训练动态劣化。
π0-FAST模型改用高效的离散动作Token(FAST)进行自回归训练,避免了上述干扰,但付出了推理延迟高、动态任务能力弱的代价。
作为过渡方案的π0.5模型尝试了两阶段训练:首先仅基于FAST Token化动作完成模型训练,随后在后训练阶段引入随机初始化的动作专家模块,并通过联合训练对模型进行移动操作任务数据的微调。
在此研究中,PI在π0.5两阶段方案基础上,提出了规范化、单阶段的“知识隔离”训练框架(π0.5+KI)。其核心是通过架构与训练机制的协同设计,在赋予模型连续控制能力的同时,严格保护VLM骨干网络的预训练知识。
π0.5+KI模型训练方案(图片来源:PI论文)
1)梯度隔离机制
阻断动作专家模块向VLM骨干网络梯度的反向传播。该机制确保新增的、随机初始化的动作专家权重在训练时不会干扰VLM原有的预训练参数,从而保护骨干网络中的通用表征与语言理解能力。
2)双目标联合训练
在训练阶段,模型同时学习两种动作输出目标:一是基于FAST离散动作Token的自回归预测,二是基于动作专家(如流匹配)的连续动作生成。在推理时,仅使用轻量级的动作专家生成高效、连续的指令,而自回归分支作为表征学习目标仅在训练中生效,以此大幅提升训练速度与稳定性。
3)多源数据协同训练
在机器人数据集之外,引入通用视觉-语言数据与高层机器人规划数据进行协同训练。这使模型在适应具体控制任务的同时,持续巩固和调用其预训练语义知识,有效缓解“知识遗忘”。
上述三项措施共同构成“知识隔离” 的训练范式。实验证明,该方法能够在为VLM嫁接连续动作专家的同时,完整保留其基于大规模网络数据习得的预训练知识,最终实现训练高效、语义泛化能力强、运动控制精准的三重目标。
然而,该方案也存在一定局限性:
同时训练连续与离散两种输出分支,会使训练阶段的计算成本增加约20%。不过,得益于模型收敛速度的提升,这部分成本可被适当抵消 。
尽管本方法有效提升了模型的语言指令遵循性,但距离理想效果仍有较大差距。这一问题的成因,可能是训练数据中存在的关联性,导致模型在部分场景下仍会忽略语言指令。
三、实时动作分块算法(RTC)
1. 为什么要引入实时分块算法(RTC)
构建实时视觉-语言-动作(VLA)模型面临一个核心矛盾:大规模VLA模型完成一次推理通常需数百毫秒,而机器人控制周期通常仅为几到几十毫秒。若采用同步“思考-执行”模式,机器人将在每次推理期间完全停顿,无法在动态环境中流畅运行。
动作分块是缓解该矛盾的关键技术,其核心思想是让模型单次推理输出一个包含多个控制点(例如50个点,对应1秒执行时长)的动作序列,而非单个动作。这样,机器人可在执行当前动作块的同时,模型并行计算下一个动作块,实现规划与执行的异步重叠。
然而,传统的同步分块执行策略(如π0等模型所用)在实践中仍存在显著缺陷:机器人必须等待当前动作块完全执行完毕、模型生成新动作块后,才能开始新一轮执行。这导致动作块切换边界必然产生停顿,破坏任务连贯性,并可能因“停止-重启”引发不安全的动力学突变。
备注:当存在推理延迟时,实时执行任务需要审慎规划。在新的动作序列段(红色部分)Action Chunk2生成过程中,前一个动作序列段(绿色部分)Action Chunk1仍在持续执行。倘若新生成的序列段与前序序列段存在显著差异 —— 那么切换执行新序列段将会导致任务失败。
因此,为实现真正流畅、高效且安全的实时控制,需要在推理阶段引入更先进的机制。于是Physical Intelligence(以下简称“PI”)提出了实时分块算法(RTC)。该算法在执行当前动作块的同时,实时生成下一动作块,并通过“冻结”已确定执行的部分、“补全”剩余部分,确保动作块间轨迹的连续与动力学平滑。
该方法可直接应用于基于扩散或流匹配的VLA模型(如π0.5),无需修改训练过程,最终形成了规划-执行的异步流水线,从根本上消除了停顿,提升了整体执行的效率与流畅性。
2. RTC工作原理 —— 边走边思考
RTC算法的核心是实现“边走边想”的异步执行。其工作设定如下:当模型正在生成下一个动作块(称为“新块”)时,机器人仍在执行当前动作块(称为“旧块”)的剩余部分。这带来了一个关键挑战:如何确保新生成的块与旧块中尚未执行的部分平滑衔接,同时又能基于最新的环境观测做出反应。
若新旧块之间出现显著的动作跳跃或策略不一致,将直接导致执行失败。因此,RTC必须解决“连续性”与“反应性”的平衡问题。
核心机制:从“生成”到“补全”
RTC的创新在于将实时动作生成问题转化为一个动作序列补全问题。其具体运作基于以下洞察:
时间重叠与“冻结”前缀:由于推理存在延迟,当新块生成完毕时,旧块中对应于未来几个控制时间步的动作其实已经确定并即将执行。因此,新块开头的这部分动作实际上已“过时”——它们对应的时间点在生成期间就已流逝。
“冻结-补全”策略:RTC算法直接将新块的起始部分(即与旧块剩余执行时间重叠的时段)“冻结” 为旧块中已知的待执行动作。随后,模型的任务不再是生成一个完整的新动作块,而是基于这个冻结前缀,去补全新块的剩余部分。
这类似于图像修复任务:给定一个序列的已知开头(冻结部分),模型需要根据最新的视觉观测和任务指令,智能地推断并生成后续合理、连贯的动作序列。
技术实现优势
幸运的是,扩散模型与流匹配模型天然擅长此类条件生成与补全任务,即使未专门针对此进行训练。RTC算法巧妙利用了模型的这一特性,在推理阶段引入“冻结前缀”作为强条件,引导模型生成既与过去动作连贯、又能响应新状态的动作延续。
这意味着,RTC可直接应用于π0、π0.5等基于扩散或流匹配的VLA模型,无需任何模型本身的再训练,即可在保持原有模型性能的同时,实现安全、流畅的实时异步执行。
3. 实验结果
为评估实时动作块(RTC)算法的性能,PI设计了一系列实验,将其与同步推理方法进行对比。实时分块执行方式理论上应具有更快的响应速度,因为它消除了不同动作块之间的推理停顿时间。此外,PI还假设该方式也有助于提高任务精度——因为这些停顿可能以模型无法预测的方式改变机器人的动态特性。为此,除了常规的长周期任务外,PI还测试了两种对精度要求较高的短周期任务:划火柴点燃蜡烛与插入以太网电缆。
划火柴点燃蜡烛实验(图片来源:PI论文)
备注:上图 —— 实时分块(RTC)技术使机器人能够完成如划火柴等高灵巧度的动态任务——即使在推理延迟超过 300 毫秒(该延迟占模型预测时域的 30% 以上)的情况下仍可稳定执行。下图 —— 与同步推理相比,RTC 完成相同机器人动作的速度提升 20%,且比包括时间集成法在内的所有同类竞争方法更平稳。图中所示的位置、速度和加速度数据对应单臂肩关节,取自真实自主划火柴任务前10秒的实际运行数据。
推动实时分块研究的另一动机,是应对未来模型可能产生更高的推理延迟。无论是由于模型规模扩大、云端推理部署,还是适配不同机器人硬件,延迟增加都将成为关键挑战。因此,PI进一步研究了在人为注入 +100 毫秒 与 +200 毫秒额外延迟时模型的性能变化。
实验结果如下图所示,随着推理延迟的增加,同步推理模式的性能会大幅下降;而实时分块(RTC)执行模式在延迟增加至200毫秒时,性能仍能保持稳定。因为该模式消除了动作块(Action Chunk)之间的停顿时间。
备注:误差棒代表均值标准误(±1 SEM),图中每个数据点均为6 项任务、每项任务 10 次完整执行流程的平均值(总计 60 次执行流程)。TE 代表时间集成方法,这是一种基础平滑处理方法,原理为对多个动作块的输出结果取平均值。实验结果显示,当推理延迟达到100毫秒或200 毫秒时,TE 方法完全失效。
4. RTC的局限性与未来展望
实时分块(RTC)算法为当前基于扩散与流匹配的 VLA 模型提供了一种高效、易部署的实时推理方案。实验表明,即便在推理延迟显著的情况下,该算法依然能保持稳定的性能。然而,它也存在以下局限性:
计算开销增加:与直接从基础策略进行采样相比,RTC 在推理时引入了额外的 “冻结 - 补全” 条件生成步骤,会产生更高的计算开销。
模型架构依赖:该算法的适用范围受限于模型类别,目前仅适用于基于扩散模型或流匹配模型的策略,难以直接迁移到其他类型的动作生成架构。
尽管PI的此次研究在真实世界中验证了多种机器人操作任务,但许多更高动态、对实时性要求更高的场景(如足式移动任务),仍需在真实硬件与真实环境中开展更充分的评估和验证。
RTC 是迈向实时物理智能的重要一步,而更复杂的任务将要求系统在多个抽象层级和时间尺度上完成推理,同时能够规划快速的动态运动,或在必要时暂停以进行深度思考。
随着VLA模型规模的持续增长,开发更精细化的实时推理与规划机制,将成为实现更强大、更通用机器人智能的核心研究方向。
原文标题 : PI VLA模型解读系列(二):从π0.5模型到实时分块算法(RTC)