“踹不倒”的人形机器人开源了!清华、北大、银河通用、上海期智联合发布Any2Track框架!

“踹不倒”的人形机器人开源了!清华、北大、银河通用、上海期智联合发布Any2Track框架!

2025年10月13日 17:27
本文共计3081个字,预计阅读时长11分钟。
来源/具身智能大讲堂 责编/爱力方

作者:李鑫    出品:具身智能大讲堂

人形机器人领域,“复刻人类动作” 一直是核心目标之一,但现实场景远比实验室复杂。机器人不仅要流畅完成跑跳、转身等动态动作,还得应对地面凹凸、被人推搡、背负重物等突发干扰。以往方案要么只能处理单一动作,要么在干扰下稳定性骤降,始终难以落地。

近日,来自清华、北大、银河通用、上海期智联合提出了名为Any2Track的两阶段强化学习框架,首次实现了在任意干扰下追踪任意动作的突破。

1760345447417.png

该框架在 Unitree G1 机器人上完成零样本仿真到真实世界迁移,既能流畅复刻高度动态、多接触的人类动作,又能在复杂地形、外力干扰、自身负载变化等场景下稳定运行,为通用人形机器人落地迈出关键一步。

1►核心问题:为什么以往的人形机器人 “又笨又脆弱”?

要让机器人像人一样灵活且抗干扰,行业长期面临两大核心难题:

一是动作追踪的 “通用性陷阱”。人形机器人有 20 多个自由度,人类动作又涵盖走、跑、跳、弯腰等多种类型,不同动作的关节控制逻辑差异极大。以往方案要么只能专精某一类动作,要么为了兼容多动作牺牲精度,连简单的 “稳定转身” 都难以保证。更关键的是,很多方法会刻意剔除 “高动态、多接触” 动作,导致机器人无法应对真实生活中的复杂场景。

二是真实场景的 “干扰冲击”。实验室里的平整地面、无外力环境在现实中几乎不存在 —— 机器人可能踩在地毯上打滑、被行人不小心撞到,或是需要背负背包。以往应对干扰的思路多是 “暴力随机训练”,在仿真中随机加入干扰,希望机器人碰运气学会应对,但这种方法无法让机器人主动识别干扰类型并调整策略,往往遇到新干扰就失灵,甚至出现摔倒、动作卡顿等问题。

2►Any2Track 破局:两阶段设计,先练 “基本功” 再学 “抗干扰”

团队没有追求一步到位,而是将问题拆解为动作追踪和动态适应两个阶段,分别用AnyTracker和AnyAdapter两个核心模块解决,既保证动作精度,又强化抗干扰能力。

Any2Track 包含两个核心组件:

AnyTracker(通用动作追踪器)与 AnyAdapter(历史感知适配模块)。

第一阶段:AnyTracker—— 让机器人成为 “动作模仿大师”

要让机器人学会 “所有动作”,关键是解决 “多自由度 + 多动作类型” 带来的控制复杂度。团队用了两个巧妙设计:

一是动作空间 “归一化”。不同关节的活动范围差异很大,直接用统一标准训练会导致部分关节控制精度不足。AnyTracker 先将所有关节的动作目标压缩到 [-1,1] 区间,再根据每个关节的物理特性,用专属参数调整动作幅度。比如髋关节的调整系数更大,肘关节更小,既保证控制灵活性,又避免关节超范围运动。

二是“专家到通才” 的蒸馏策略。直接训练一个什么都会的模型难度太高,团队先按动作类型拆分任务:对 LAFAN1 数据集(已标注动作类别),为 “走、跑、跳” 等每种动作训练一个 “专家模型”;对 AMASS 数据集(动作类别多且杂),先用 CLIP 模型将动作标签转化为文本特征,再用 K-means 聚类成 6 类,为每类训练 “专家模型”。最后用 DAgger 算法将所有 “专家” 的能力整合到一个 “通才模型” 中,既保留单动作的高精度,又实现多动作的无缝切换。

AnyTracker 中的奖励函数项

在训练数据上,团队也做了关键决策:不同于以往剔除高动态、多接触动作的做法,他们完整保留了这些高难度动作,并用精细化的奖励函数引导训练 —— 比如对 “躯干稳定性”“关节位置精度”“避免自碰撞” 等指标设置不同权重,让机器人在追求动作还原度的同时,兼顾自身平衡与安全。

第二阶段:AnyAdapter—— 给机器人装 “干扰识别与应对大脑”

学会动作后,如何让机器人应对真实干扰?AnyAdapter 的核心思路是 “不破坏已有动作能力,新增抗干扰技能”,具体分两步:

在线动态适应实验中所评估方法的概述

第一步是从历史数据中 “读懂” 干扰。机器人在运动中会不断产生 “状态 - 动作” 数据(比如关节角度、速度、受力情况),这些数据里藏着干扰信息(比如地面打滑时,关节速度会突然变化)。AnyAdapter 设计了一个 “动态感知世界模型”:先用编码器从历史数据中提取干扰特征(比如 “地面摩擦低”“被向右推”),再用世界模型预测 “下一刻机器人会处于什么状态”。通过 “预测误差最小化” 训练,编码器能精准捕捉干扰类型,为后续调整动作提供依据。

第二步是用 “适配器” 微调动作,不碰核心模型。如果直接修改 “通才模型” 的参数来适应干扰,很可能导致原本流畅的动作变卡顿。AnyAdapter 在 “通才模型” 基础上新增一个 “适配器模块”,权重初始化为 0(刚开始不影响原有动作)。训练时,适配器根据编码器提取的干扰特征,微调关节控制指令 —— 比如检测到 “地面摩擦低”,就减小脚部发力幅度避免打滑;检测到 “背负重物”,就调整躯干重心保持平衡。这种 “增量学习” 既保留了原有动作精度,又快速获得抗干扰能力。

3►实测性能:真实场景下碾压传统方案

团队在 Unitree G1 机器人上做了全面测试,无论是仿真还是真实环境,Any2Track 的表现都远超传统方案。

在无干扰的动作追踪中,AnyTracker 的成功率达到 89.23%,远超 OmniH2O(75.64%)和 ExBody2(79.68%);关节位置误差(MPJPE)仅 27.96mm,比传统方案低 20% 以上,意味着机器人能精准复刻人类的细微动作(比如手腕转动角度、脚尖落地位置)。

各对比方法在在线动态适应任务中的仿真性能。其中,加粗数字代表最优性能。

在有干扰的场景中,Any2Track 的优势更明显:

•复杂地形(用 Perlin 噪声生成高低不平的地面):成功率 83.2%,关节位置误差 20.68mm,比 Vanilla PPO(传统强化学习)低 33%;

•外力干扰(随机推搡机器人躯干):成功率 59.0%,是 DWL 方案(42.6%)的 1.4 倍;

•负载变化(躯干质量随机增减):关节位置误差 27.75mm,比 RMA(主流抗干扰方案)低 6%。

真实世界实验中的不同环境干扰设置

各对比方法的真实世界性能。所有方法均在完全相同的轨迹与设置下进行评估。

最关键的真实世界测试中,Any2Track 的表现更是亮眼:在木质地板、地毯、泡沫等复杂地面上,其关节位置误差比传统 PPO 方案低 18.87mm;背负 5kg 重物时,误差低 14.28mm;被绳子拉扯时,误差低 20.67mm。这些数据表明,Any2Track 真正实现了 “仿真训练,真实可用” 的零 - shot 迁移,无需在真实环境中额外微调。

4►结语与未来:

Any2Track 的突破不仅在于性能提升,更在于它为 “通用人形机器人” 提供了可落地的技术框架:

从技术层面看,它首次实现了 “动作通用性” 与 “抗干扰能力” 的统一,解决了以往方案 “顾此失彼” 的痛点。其 “两阶段训练”“增量学习” 的思路,也为复杂机器人系统的能力迭代提供了参考 —— 先夯实基础技能,再叠加专项能力,避免重复训练与能力退化。

从应用层面看,该框架可直接用于需要高灵活性与稳定性的场景:比如家庭服务机器人(应对地面杂物、被人触碰)、工业巡检机器人(应对凹凸地面、负载变化)、救援机器人(应对复杂地形与外力冲击)。团队也提到,未来可基于 Any2Track 开发更复杂的功能,比如远程操控、技能迁移学习等。

目前,团队已开源了项目官网,并提供了真实世界演示视频。随着该框架的进一步优化,人形机器人距离 “走进真实生活” 又近了一步。

论文地址:https://arxiv.org/pdf/2509.13833

项目地址:https://zzk273.github.io/Any2Track/

声明:本文来自具身智能大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯