丰田CUE机器人研发新进展即将掌握走路运球技能

人形机器人走向实用，最难的从来不是 “能走”，而是走得稳、学得快、能从仿真顺利落地现实。丰田未来创生中心，正用一套全新的强化学习 + Sim2Real 路线，让旗下 CUE 篮球机器人实现行走、站立乃至运球。尽管CUE目前还不具备行走能力，但通过这套技术路线，有望把双足控制与动态交互能力推到新高度。

左侧：森田光典。右侧：伊藤贵弘

近日，丰田官方采访了 R-Frontier 部门的伊藤贵弘、森田光典两位研发人员，披露了CUE人形机器人的最新进展。

伊藤贵弘现任丰田 R-Frontier 人形机器人团队运动控制 / 全身动力学核心工程师、研究员，主攻双足行走稳定、力矩控制与 MPC 模型预测控制，参与 T-HR3 及下一代人形平台研发。加入丰田仅一年多，便成为运动控制方向核心研究者。

森田光典同为该团队研究员，主攻机器人学习、行为生成与模仿学习，擅长从人类示范和大规模数据中学习通用操作技能，聚焦人形机器人手眼协调与灵巧操作。

01.

强化学习+Sim2Real：丰田机器人的动作训练底层逻辑

伊藤贵弘认为，人形机器人要自主掌握复杂动作，强化学习是当下最有效的路径。

它和监督学习不同，不需要大量标注好的完美轨迹，本质是让 AI 在环境里不断试错，根据奖励机制调整行为，最终收敛到最优策略。

实验中使用的测试机的模拟环境（左图）用于虚拟仿真训练。使用实际设备（右图）进行评估。

而让这套方案真正具备工程价值的，是 Sim2Real（仿真到现实）。先在虚拟环境里让机器人跑完海量场景与极端工况，再把训练好的模型迁移到实体机器人上。这能大幅减少真机损耗、缩短训练周期，也是目前全球人形机器人落地的主流技术路线。

丰田的思路和国内头部人形机器人企业基本一致：用仿真补足数据不足，再靠产品迭代解决仿真偏差问题。

02.

走路这件事：仿真1-2小时学会，真机磨了无数轮

行走是人形机器人的基本功，却是工程上的老大难。丰田团队把强化学习完整嵌入行走控制。

他们在仿真里设置了很简单的奖励规则：朝着目标速度走就加分，滑倒、失衡就扣分。为了加快训练，团队直接在仿真中并行跑上千个机器人实例，同步学习、同步迭代。

测试结果显示，只用 1–2 小时，虚拟机器人就学会了前进、后退、转弯，能维持基本平衡。

但模型一搬到真机上，问题就立刻暴露出来。

森田光典坦言，仿真和现实之间存在一道很难跨越的鸿沟：同样的控制指令，虚拟里流畅自然，真机上却会抖动、拖脚，甚至突然失稳。这也是行业普遍头疼的 “仿真-现实差距”。

为了填平差距，丰田研究团队同时用了两套技术方案。

Real2Sim：优化模拟器的执行器模型，使其与真实世界数据相匹配。

第一套是域随机化：人为给编码器、IMU 等传感器加噪声，随机改变地面摩擦力，让机器人在 “不完美环境” 里训练，提升策略鲁棒性。

第二套更硬核：Real2Sim 实物反哺仿真。用真机关节电机的实际运行数据，反向校准仿真模型。静摩擦、动摩擦、粘性摩擦、转动惯量，全都通过黑箱优化一一匹配，让虚拟执行器的行为无限贴近真实硬件。

即便这样，真机验证仍是漫长的循环。

每训一个新模型，都必须上真机测试。走不稳，就分析问题、改奖励、重训，再放回真机验证。一圈圈迭代下来，原型机才真正实现稳定行走，甚至被推动时也能稳住姿态不摔倒。

03.

比走路更难的运球：时机转瞬即逝，奖励根本没法手工调

如果说行走只是控制机器人自身，运球还要同时兼顾动态球体，难度直接上了一个台阶。

研发这项技术，主要是为丰田的 AI 篮球机器人 CUE 做铺垫。CUE 最早由丰田工程师志愿者发起，后来归入 R‑Frontier 部门，是一款专用投篮机器人，主打高精度投射技术验证，并非通用服务型机器人。它和 T‑HR3 及下一代人形平台共用底层运动控制技术，但定位不同。项目始于 2017 年，灵感来自《灌篮高手》，现已迭代到 CUE6。