PI VLA模型解读系列:从π0模型到Hi Robot

2026年01月06日 17:11
本文共计6590个字,预计阅读时长22分钟。
来源/OFweek机器人网 责编/爱力方

2024年10月,Physical Intelligence(以下简称“PI”)正式发布用于通用机器人控制的VLA模型π0

2025年1月,PI推出新型动作分词器FAST,并借助该分词器训练出了π0-FAST 模型。

2025年2月,PI发布了分层交互式机器人系统-Hi Robot,让机器人学会更深入地倾听与思考。

2025年4月:PI发布了具身智能VLA模型π0.5

2025年5月:PI 提出 “知识绝缘 VLA”(Knowledge-Insulated VLA, 

π0.5-KI)新范式 —— 通过将动作专家模块模块化“嫁接”至 VLM 架构,同时避免侵蚀 VLM 预训练阶段积累的大规模语义知识,最终达成 “快速训练效率、优异语义泛化能力与高精度运动控制” 的三重技术目标。

2025年6月,PI开发了实时动作分块算法(Real-Time Action Chunking

)。该算法能够在确保动作连续性的前提下实现实时执行,并且适用于任何基于扩散或流匹配的VLA模型(包括π0.5),无需在训练阶段进行任何改动。

2025年11月,PI发布了具身智能VLA模型π0.6,同时,推出一种名为RECAP(基于优势条件策略的经验与修正强化学习)的方法,并利用此方法,训练出来了新的π*0.6模型。

2025年12月,PI开发了一种利用人类第一视角数据改进模型的方法,并且在研究中观察到人机技能迁移的涌现现象。

一、 π0模型

1. 模型架构

2024 年10月 ,Physical Intelligence(以下简称“PI”)正式发布机器人领域端到端VLA模型π0 ,它是一个单一的、稀疏的混合专家(MoE)Transformer模型,内部包含两套独立的参数权重,相当于一个模型内有两个分管不同任务的“专家”模块。

 

π0模型架构示意图

1)VLM专家模块 —— 其架构与参数初始化直接来源于谷歌开源的PaliGemma模型,采用多查询注意力机制。该模块主要由视觉编码器(SigLIP-400M)与语言模型(Gemma-2B)构成,总参数量约30亿(3B)。在π0 中,这些预训练权重并非被冻结调用,而是作为可训练参数,被集成到统一的混合专家Transformer架构中,与动作专家模块一同进行端到端的训练。

 

PaliGemma模型架构

1)动作专家(Action Expert)模块:是模型内部另一套独立的、规模较小的参数集(底层架构为300M的Gemma模型变体),使用全双向注意掩码机制,专门负责生成机器人动作。

为了提升推理速度(动作专家模块在推理阶段需要执行多次前向传播),PI对动作专家模块的规模进行了缩减,将其配置参数调整为 {特征维度 = 1024,多层感知机维度 = 4096},最终该模块的参数量约为300M。

π0 架构灵感来源:来自Transfusion ,它使用多个目标训练单个Transformer。其中,对应于连续输出的 Tokens 通过流匹配损失监督,对应于离散输出的 Tokens 通过交叉熵损失监督。

π0  团队在继承这一核心设计的基础上,针对机器人操控任务的特性进行了关键改进:为机器人任务了专属Token(包括本体感知状态 Token 与动作 Token)配置一组独立的权重参数集,显著提升模型对连续动作的建模精度与任务适配性。

2. π0 工作流程

1)Token 统一编码

所有输入模态(图像序列、语言提示、机器人本体感知状态、含噪动作片段)被转化为统一维度的Token 序列,实现多模态输入的格式对齐。

2)稀疏路由分配

通过稀疏路由机制,图像与文本Token 被分配至VLM 专家模块,机器人本体状态与含噪动作 Token 被分配至动作专家模块。

3)跨专家交互融合

两个专家模块的Token 表征仅在 Transformer 的共享自注意力层中实现信息交互与融合,无需额外的跨模态融合层。既保证了多模态信息的高效互通,又通过权重分离避免了视觉语言任务与机器人动作任务之间的训练干扰。

4)动作分布生成

动作专家以融合表征为输入,依托条件流匹配技术建模连续动作的概率分布,自回归地生成长度为H=50 的动作序列,直接驱动机器人完成复杂灵巧任务。

3. π0 模型与PaliGemma模型的区别

π0 遵循PaliGemma (VLM)的设计,但存在以下区别:

为机器人专用的Token(包括状态向量和动作向量)增加了额外的输入和输出投影层;

增加了一个额外的多层感知机(MLP),用于融入流匹配的时间步信息;

为动作专家配备了一套规模更小的、独立的权重参数。

标准的PaliGemma 架构的输入仅包括图像和语言。π0 在此基础上增加了用于机器人本体感知状态和含噪声动作块的输入接口。其中,感知状态输入通过一个线性投影层映射至Transformer 的嵌入维度。

含噪声的动作块首先通过一个多层感知机(MLP)映射到Transformer的嵌入维度,此过程同步整合了流匹配的时间步信息,从而为每个未来时刻的动作生成一个对应的输入Token。在Transformer内部,这些动作Token的数量与预测时域H严格相等(任务中设定H=50)。

模型最终仅提取这H个动作Token所对应的输出表示,并通过一个线性投影层将其解码为去噪后的精确动作序列。

4. 预训练 + 后训练(微调)

在训练策略上,π0 模型采用了预训练+ 后训练(微调)的模式 —— 先在多样性的大规模数据上进行预训练,再用高质量机器人数据进行微调,从而达到所需的精细控制能力。

预训练阶段的目的,是训练一个表现出广泛功能和泛化能力的基础模型。后训练阶段的目的,则是基于高质量的精选数据,训练出一个适应特定下游任务的模型。PI研究中分别使用少量到中等量数据进行高效的后训练,以及使用较大数据集进行高质量的后训练,完成诸如洗衣折叠和移动操作等复杂任务。

 

π0 模型的预训练和后训练

1)预训练阶段

在预训练阶段,数据集需覆盖多样化任务,且在每项任务下都要包含多样化的行为模式,使模型构建跨任务、跨本体的通用物理理解与动作生成范式。

PI的预训练数据是采用了一个混合数据集,该数据集包含开源数据集(OXE、DROID和Bridge)以及PI自己采集的真机数据(涵盖7种机器人本体和68项任务,数据总时长超过1万小时。)。

其中,混合数据集中有9.1%来自开源数据集。这些开源数据集涵盖了广泛的物体和环境,满足了数据多样性的要求。其中,数采任务中的机器人通常配备一到两个摄像头,并采用低频率控制,频率在2到10 Hz之间。

另外,为了学习灵巧且更复杂的任务,PI还使用了自采的数据集,总计903M时间步长的数据,其中106M步来自单臂机器人,797M步来自双臂机器人。

训练方式:虽然π0 模型内部有两组独立参数(VLM专家和动作专家),但在预训练阶段,它们从未被分开或单独训练,而是作为一个不可分割的整体模型,进行端到端的联合训练。

2)后训练阶段

后训练的目标则是让模型能够有效支持完成具体的下游任务,如叠衣服、清理餐桌等复杂的灵巧任务。

在后训练阶段,PI使用一个较小的、任务特定的数据集对模型进行微调,使其专门适应特定的下游应用。不同的任务需要的数据集差异很大—— 完成最简单的任务仅需5小时的数据微调,而最复杂的任务则需要100小时或更多的数据。

二、 π0-FAST 模型

1. 为什么要引入FAST?

Transformer通过学习从输入Token序列到输出Token序列的映射来解决问题。原则上,任何可被分词为离散单元的数据(包括机器人动作)都可由此类序列模型处理。然而,分词方式的选择从根本上决定了模型的学习上限与能力边界。

当前,大多数VLA模型仍局限于简单的低频控制任务,这在采用自回归预测的VLA模型中尤为突出。其根本瓶颈在于动作表示形式:这些模型通常将连续的机器人动作空间进行简单地离散化分桶,即每个动作维度、每个时间步都被映射为一个离散的Token。这种表示严重损失了精度与连续性,使其天然难以扩展到需要高频、精细控制的灵巧操作任务。

相比之下,基于扩散模型或流匹配的方法(如π0 所采用)能直接建模连续动作分布,在灵巧性与精度上表现更优,但其训练过程通常计算代价高昂,耗时漫长。

那么,是否存在一种折衷方案?我们能否找到一种动作表示方法,使其既能保持连续方法的灵巧性与精度,又能像离散Token一样支持高效的自回归训练?

为此,Physical Intelligence团队联合斯坦福大学与加州大学伯克利分校,提出了一种新型的时间序列压缩动作分词器FAST(Frequency-space Action Sequence Tokenization)。它旨在通过对连续动作进行高效、保真的压缩编码,使自回归VLA模型能够通过简单的“下一个Token”预测目标,直接训练出适用于高频率、高灵巧度机器人控制任务的策略。

FAST分词器

2. FAST是什么?

1)FAST工作原理

FAST,即频率空间动作序列分词,是一种用于高频机器人控制数据的动作分词器。它通过使用离散余弦变换(DCT)和字节对编码(BPE)的协同压缩流程,将原始动作序列高效编码为少量密集的Token。

a. 离散余弦变换(DCT)

DCT是一种将信号从时域转换到频域的数学工具。它将连续的动作信号分解为不同频率的余弦分量之和:低频分量捕捉动作的整体轮廓与平滑趋势,高频分量则编码动作中的快速变化与细节。

由于机器人动作在时间上通常连续平滑,其能量主要集中在低频部分,因此DCT能够仅用少量主要系数来高保真地表示整个信号,实现高效压缩。与需要训练的学习型方法(如向量量化)不同,DCT是一种无需训练、计算高效的解析方法。

b. DCT与BPE的协同压缩流程

在实际压缩中,首先对动作块应用DCT,将其转换到频域,然后通过仅保留最重要的系数(舍弃微小的高频噪声)实现有损、高压缩比的初步压缩。

随后,字节对编码(BPE)作为一种高效的无损字典压缩算法,对量化后的DCT系数序列进行进一步压缩,将其转化为紧凑的离散Token序列。

DCT和BPE二者协同,最终将原始动作块压缩至仅需 30至60个Token,相比此前的动作分词方法实现了 10倍的压缩率,从而为自回归VLA模型提供了既紧凑又保真的动作表示。

 

FAST工作原理

2)FAST技术创新点

a. FAST 设计灵感源自JPEG 图像等连续数据压缩方法,用“压缩精华”的思路表示动作,在精度和训练速度上取得了最佳平衡。

b. FAST统一了语言与动作的“数据类型”,让AI模型能更顺畅地运用已有知识来理解和执行复杂任务。

3. 实验效果与局限性

1)实验效果

PI 团队通过引入创新的 FAST 分词器,成功训练出了新一代自回归 VLA 模型 ——π0-FAST。该模型继承了 π0的整体架构与训练数据,通过 FAST 分词器将连续动作离散化为 token 后,将动作生成范式从流匹配转换为自回归 token 预测,其核心突破在于 FAST 分词器对连续动作的高效、高保真表示。

实验表明,与传统的“分箱离散化” 方法相比,FAST 分词器带来了质的飞跃。π0-FAST不仅能胜任传统分箱类离散化方法无法处理的高频灵巧操作任务,而且实现了与流匹配模型相媲美的操作精度。与此同时,凭借自回归架构的效率优势,在同等任务性能下,其训练速度相比流匹配方法提升了 5 倍,真正实现了性能与效率的高效平衡。

 

π0与π0-FAST训练迭代速度对比

2)局限性

采用FAST 分词器的自回归 VLA 模型 π0-FAST,当前核心局限性在于推理速度显著慢于基础版 π0模型 —— 其自回归解码机制与 π0的流匹配解码方式相比,效率存在明显差距。

具体来看,在NVIDIA 4090 GPU 环境下,π0 (流匹配 / 扩散路线)预测一秒钟动作片段仅需 100 毫秒,而 π0-FAST(自回归路线) 完成相同任务的推理时间约为 750 毫秒。这一差距主要源于两方面核心原因:一是解码步骤差异,π0-FAST 需自回归解码 30-60 个动作 token,而 π0 仅需 10 个扩散步骤;二是模型主干负载不同,π0-FAST 依赖 20 亿参数的完整语言模型主干执行自回归解码,而 π0 采用的是 3 亿参数的 “动作专家” 模型,计算开销更轻。

尽管自回归VLA 模型的推理提速仍是亟待突破的关键难题,但在语言建模等相关领域,业界已积累了丰富的自回归 Transformer 快速推理研究成果 —— 这些成熟的技术路径与优化经验,有望为 VLA 模型的推理效率升级提供重要参考与实践借鉴。

三、分层交互机器人系统Hi Robot

当你对机器人说:“如果你有火腿或烤牛肉,能不能为我的朋友做一个包含其中一种的单独三明治?”——这要求机器人不仅需要理解语言的字面含义,更要能够将指令置于当前的物理与任务上下文中,并灵活组合已有的基础技能(例如,“拿起烤牛肉”)来完成这项新颖的任务。

如果机器人随后收到纠正与反馈(如“不是那样做的,你得蹲得更低,否则你会一直错过”),它还必须能够动态地将这些信息整合到正在进行的任务执行中,实时调整行为。

这一挑战让人联想到Kahneman所提出的 “系统1”与“系统2”认知双过程理论:“自动化”的系统1对应于能够通过触发预先学习的技能来执行简单指令的策略;而更具“深思熟虑”的系统2,则涉及更高层次的推理,负责解析复杂的长周期多步骤任务、解读反馈,并规划和决策合适的行动方案。

以往关于机器人指令执行的研究大多集中在原子化的简单指令上,主要触及了“系统1”级别的自动化行为。为了支持机器人完成上述需要复杂推理、高度适应能力的任务,Physical Intelligence (PI) 开发了一个名为 分层交互机器人的系统 —— Hi Robot。该系统通过引入基于VLM的分层推理机器人控制系统,旨在解决复杂提示和动态反馈所要求的更精细、更深层的推理问题。

1. Hi Robot工作原理

Hi Robot 系统采用 “系统 1 - 系统 2” 分层架构,两大核心模块分工明确、协同工作:

1)高层推理模块(系统 2):由一个VLM模型构成,通过 “自我对话”进行复杂任务和语言交互的推理。在工作任务上,负责处理开放式复杂指令、整合基座摄像头与腕部摄像头采集的多模态图像信息,同时解读任务执行过程中的动态反馈,最终将复杂任务拆解为底层可执行的简单语言指令,输出至底层执行模块。

2)底层执行模块(系统 1):由一个VLA 模型构成(例如π0 ),负责精准响应高层模块输出的底层可执行语言指令,高效生成连续动作指令,驱动机器人完成具体操作;同时可根据任务需求,选择性输出语言响应。

 

HiRobot系统工作流程

Hi Robot的两个模块以不同频率运行:低级执行过程以较高频率生成动作序列块,而高级推理过程则被以较低频率地调用——既可在设定时间后触发,也可在接收到新的语言反馈时启动。

因此,高层推理本质上是在向低层执行“传达指令”,将复杂的提示与交互分解为可转化为具体动作的、可执行的小单简短指令。

总之,Hi Robot通过使用VLMs进行高层次推理,然后让VLA做低层次任务执行,不仅使得机器人能够处理比 “现有端到端指令跟随系统” 更复杂的提示,还能在任务执行全程中融入实时反馈,进一步提升决策与执行的准确性。

2. 模型架构与训练

在PI的方案中,Hi Robot的两个分层模块统1(底层执行)与系统2(高层推理)以同一基础VLM模型PaliGemma-3B VLM为起点。系统1采用 π0  VLA模型,其训练方式是在 PaliGemma-3B 基础上进行微调,并增加一个用于生成连续动作的“动作专家”流匹配模块;

系统2的训练方式是在PaliGemma-3B VLM的基础上,使用专门构建的“技能-指令”对话数据进行监督微调。训练数据类型为由人工标注的技能片段和VLM合成的自然语言指令构成的元组。其核心目标是让模型学会高层任务分解与规划,即根据视觉观察和开放式用户指令,生成具体的低层语言命令。

 

Hi Robot系统数据收集与训练

PI 团队在三类机器人平台上对该系统进行了实测验证,涵盖单臂机器人、双臂机器人及双臂移动机器人。实验结果显示,该系统可稳定胜任清理杂乱桌面、制作三明治、超市购物等多场景复杂任务。

       原文标题 : PI VLA模型解读系列(一):从π0模型到Hi Robot

来源:PI VLA模型解读系列(一):从π0模型到Hi Robot | OFweek机器人网

声明:本文来自OFweek机器人网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯