智源RoboBrain-Dex利用第一视角视频破解灵巧操作难题

该框架的行业价值在于，它将有效降低灵巧操作技能的学习成本与周期，使机器人能够快速掌握复杂的人类操作逻辑。通过高质量人类数据的规模化注入，RoboBrain-Dex解决了传统方法中技能泛化能力弱、迁移成本高的核心痛点，为工业制造、家庭服务、医疗辅助等高价值应用场景提供了可落地的技术底座。未来，RoboBrain-Dex会通过加入旁观者的视角来弥补第一视角的不足，同时不断提升对画面和动作的动态理解能力，从而让它在复杂多变的环境里操作得更稳定、更可靠，并推动具身智能灵巧操作从实验室演示迈向规模化商用，助力具身智能机器人在千行百业中广泛应用落地。

近日，智源研究院正式发布面向具身智能灵巧操作的新型预训练范式 RoboBrain-Dex，为具身智能机器人在真实场景中的落地提供了关键路径。该范式的核心突破在于：首次实现不依赖大规模机器人遥操作数据，即可完成高泛化能力的灵巧操作模型训练。

RoboBrain-Dex通过引入大规模人类第一视角操作视频数据作为主要训练来源，结合少量真实机器人操作数据进行分布对齐，显著缓解了机器人高质量操作数据稀缺的瓶颈。同时，模型通过运动学建模提取人类运动先验，将人类和机器人统一动作空间，实现人类动作和机器人动作的有效对齐。同时，该模型还将不同本体的动作和视觉信息都共享在统一token空间，支持统一的推理与决策流程，从而显著提升了跨机器人本体、跨场景和长时程任务的泛化能力。

RoboBrain-Dex直面当前具身智能发展的两大核心痛点：数据稀缺与泛化不足。当前，对于拥有十几个甚至更多自由度的灵巧手系统而言，高维动作空间导致遥操作数据采集成本极高，且不同“灵巧手”结构之间差异显著，造成数据难以复用、模型难以迁移。真机数据有限使得模型难以学习到足够丰富的操作经验，严重制约了机器人在不同应用场景的泛化落地能力。机器人只能在见过的、相似的环境中稳定运行，一旦面对新场景、新物体或新任务，就容易出现判断失误、动作失效等问题，无法快速适应环境变化与任务差异，难以从有限经验中提炼出通用、可迁移的控制策略，最终导致在真实场景中可靠性不足、复用性差，难以规模化部署。RoboBrain-Dex正是为解决这一挑战而设计——它不再依托于少量的机器人数据采集，而是“借力”海量易得的人类操作视频，实现了从“小数据、弱泛化”向“大数据、强泛化”的范式跃迁。

RoboBrain-Dex系统性地将大规模人类视觉-动作数据与机器人视觉-动作对齐，并实现统一建模与跨本体迁移的灵巧操作预训练。相较于传统的基于纯仿真或小规模遥操作数据的训练方法，RoboBrain-Dex在数据效率、泛化能力和部署灵活性方面具有显著优势。尤其在不依赖特定硬件数据的前提下，即可实现对新机器人平台的快速适配，为未来具身智能机器人具备“看人做、自己学、上手用”的类人学习能力奠定了技术基础。

实验结果显示，RoboBrain-Dex在多项真实世界灵巧操作任务中取得显著提升，在支持跨具身形态(cross-embodiment)的长时程双臂协作(bimanual dexterous manipulation)、复杂物体操作等挑战任务上成功率提升40-60%，并在未见物体与新环境下展现出更好的跨场景泛化能力。

RoboBrain-Dex验证了一条更可扩展的训练路径，在显著降低数据采集成本的同时，仍能在复杂操作任务中保持优异效果，为后续在更多任务、场景与平台上的扩展奠定坚实基础。

1、技术创新：利用人类第一视角操作

数据的跨本体统一预训练策略

高效便携的第一视角人类动作数据采集系统

【图说】便携式glove-tracker系统：通过Manus Quantum手套精确捕获25个手部3D关键点，结合VIVE Tracker记录6自由度腕部与头部位姿，配合头戴式相机同步采集第一视角视觉信息。

传统动作捕捉依赖多相机阵列与专业场地，存在部署成本高、易受遮挡、数据采集效率低等局限。RoboBrain-Dex创新推出便携式 glove-tracker 系统，在采集高精度手部数据同时，摆脱对固定场地与昂贵设备的依赖，可在家庭、工厂、户外等真实场景灵活部署，实现随时随地、无感化的高质量人手动作采集，大幅降低数据获取门槛，支持大规模、长时间、多样化数据收集。该方案不仅提升了数据采集的易用性与真实性，更有望构建分布式数据采集网络，通过汇聚海量真实场景下的手部动作数据，为训练更通用、更具环境适应性的智能体提供关键支撑。

基于这套系统和开源数据的处理，智源研究院自采人类第一视角操作数据，并融合互联网开源的人类与灵巧手第一视角数据，构建了EgoAtlas数据集。为解决不同数据源的动作表示不一致问题，统一采用相机坐标系作为标准，确保了跨数据集的一致性表示。

多源数据预训练与高效微调

RoboBrain-Dex采用统一的Vision-Language-Action(VLA)框架，将视觉观测、语言指令与动作输出在同一模型中联合建模。预训练阶段，模型融合人类第一视角示范与机器人第一视角交互等多源数据，学习更广泛的操作经验与可迁移表征。下游任务中，模型无需依赖大规模在线交互或从头训练，通常仅需少量真实机器人数据微调，即可将预训练能力快速泛化到具体的真实操作任务，显著提升数据效率并降低部署成本。

面向长时程与多步骤任务，RoboBrain-Dex引入标记驱动的“推理—执行”解耦机制：模型可在生成过程中通过特定标记（如[BOR]）进入任务分解/中间推理阶段，通过（如[BOD]）切换到动作生成阶段，并将相应隐表示传递给动作解码器以输出连续控制指令，从而更稳定地实现“先推理、后执行”的决策流程。

创新的Visual-Motion动态建模框架

多源第一视角数据的独特挑战在于本体视觉差异以及视角移动，为此，RoboBrain-Dex提出了Visual Dynamics和Motion Dynamics的双重建模策略。

Visual Dynamics专注于建模第一视角视觉观测的时序演化，通过引入手部运动作为条件，在隐空间构建与操作相关的视觉状态的动态表示，使模型理解"哪些视觉特征变化和动作相关"。Motion Dynamics则建模动作本身的时序结构，通过RQ-VAE将连续运动轨迹压缩为紧凑的离散token，在保留关键运动信息的同时大幅降低表示维度。这种离散化不仅提高了计算效率，更使模型能够从大规模数据中充分学习运动先验，实现人类和机器人动作在统一潜空间中的对齐表示。

2、实验验证：在复杂真实环境中实现

高成功率与强鲁棒性的灵巧操作

RoboBrain-Dex在多项真实世界灵巧操作任务中展现出卓越性能。在仅使用少量机器人数据微调的情况下，模型在复杂操作任务上的成功率显著超越基线方法。更重要的是，执行过程展现出良好的稳定性和动作连贯性——即使在视角变化、物体遮挡等挑战性条件下，模型仍能保持鲁棒的操作能力。

跨任务泛化实验显示，面对训练中未见过的新物体组合、不同初始状态和变化的操作环境，RoboBrain-Dex依然保持较高成功率。这种泛化能力源于多源数据预训练带来的丰富操作分布，使模型学习到更加抽象和通用的操作先验。

在指令跟随任务中，模型准确理解并执行各种自然语言指令，即使面对语义更抽象或表达方式变化的指令，仍能生成与意图一致的动作序列。

消融实验进一步验证了各模块的贡献。移除Motion Dynamics建模或采用连续动作表示都会导致性能明显下降，证实了通过RQ-VAE构建的紧凑动作token在保留关键运动信息和提升训练效率方面的关键作用。Visual Dynamics的引入则显著提升了模型在复杂视觉条件下的鲁棒性。

RoboBrain-Dex在基础操作、复杂任务等维度均实现了对GR00T N1.5、π0.5等主流模型的超越，其核心创新（运动感知动力学模块）是提升复杂时序任务成功率的关键，同时在语言指令跟随与环境鲁棒性上也展现出领先优势。

在泛化能力评估中，RoboBrain-Dex同样表现优异：在“跨背景泛化”任务里，RoboBrain-Dex成功率达70.0%，显著高于π0.5(50.0%)和GR00T N1.5(65.0%)；在“杂乱场景”中，RoboBrain-Dex以70.0%的成功率超越两款基线模型(55.0%和60.0%)；在“物体类别泛化”任务中，RoboBrain-Dex同样以70.0%的成绩优于π0.5和GR00T N1.5(均为65.0%)。这表明，RoboBrain-Dex在环境结构变化、物体属性泛化及复杂场景干扰等方面具备更强的适应能力。

RoboBrain-Dex为具身智能机器人灵巧操作领域带来关键范式转变：从依赖昂贵、低效的机器人本体数据采集，转向充分利用丰富、可扩展的人类操作数据。这一转变不仅彻底打破了长期制约行业发展的数据稀缺瓶颈，更提供了一条通往通用具身智能的高效技术路径。

来源：智源RoboBrain-Dex：通过人类第一视角操作视频解决具身智能灵巧操作难题 | 机器人大讲堂