芝能科技出品
国外机器人初创公司Figure 有点像当年不断在汽车领域发表核心技术的特斯拉,一直在带来更多的解决机器人脑子的方案。
机器人模型 Helix 02 用单一的神经网络实现全身长程自主控制,在家庭厨房中能驱使机器人执行连续 4 分钟的长线程任务,像人一样用臀部关抽屉。
这个模型尝试人形机器人在真实环境中,把走路、操作和保持稳定这三件事同时做下去,实现了从像素到全身连续动作的统一控制,执行复杂任务、协调步态与操作,并处理实时反馈与误差调整是一种很重要的解决问题的思路。
01
如何像人一样干活
Figure 发布了持续 4 分钟的长线程任务视频,搭载 Helix 02 的 Figure 03 机器人在厨房里操作洗碗机,整个过程没有遥控操作,这个连续任务涉及到了 61 个移动操作动作。
对于机器人来说,不在于某一项能力不成熟看,稳定行走早就不是难题,灵巧手的抓取控制也已经可以做到很精细,视觉感知在结构化环境中同样可靠。
对于机器人来说,困难在于,当这些能力叠加在同一个身体上时,工程上很难维持一个持续闭环。
你一边走路,一边伸手去拿东西,身体的受力分布、重心位置、可达空间都会不断变化,而这些变化并不能被清楚地拆分给“走路模块”和“抓取模块”分别处理。
传统工程解法是回避这个问题。把行走、站立、操作拆成几个相对独立的控制器,再用状态机规定切换顺序:先走到位,停下,稳定住,再伸手,抓完之后重新站稳,然后继续走。
这套方法在实验室环境里可以工作,但在真实世界中非常脆弱。任何一个环节出现偏差,比如物体位置略有变化、地面摩擦不一致、接触力超出预期,系统就会停在一个“既不能继续走,也没法继续操作”的中间状态。
Helix 02 的做法是正面接受身体的整体耦合,不再分别决定“腿怎么走”“手怎么动”,把整个身体当成一个连续受约束的系统来计算下一步动作。无论是迈步、伸手、弯腰还是调整姿态,都是同一次决策中的不同自由度输出。
02
Helix 02 中的 System 0
Helix使用一套神经网络,由三个核心系统神经网络模型组合而成。
System 0 的角色非常清晰,不负责理解任务和看世界,只负责一件事——保证任何被下发的动作在物理上是站得住的、连得上的、不会把自己送进不稳定状态的。
过去这部分工作由大量手写控制逻辑完成,包括平衡补偿、接触判断、力矩限制、步态稳定区间等。问题在于,这些规则一旦离开设计者预想的工况,很快就会失效。
System 0 选择是学习结果,通过将大量人类全身运动数据映射到机器人关节空间,模型直接学到“人在这种姿态、这种受力条件下,身体会怎么动才能不倒、不僵、不失控”。
在仿真中,这些动作被反复扰动、放大、打乱顺序,直到模型不仅能复现动作本身,还能在偏离轨迹时自动调整回来。最终得到的并不是某一套步态或动作库,而是一种持续可用的身体控制能力。
在演示中体现得非常明显。当机器人双手已经拿满餐具时,自然地选择用脚去抬洗碗机门、用髋部去顶抽屉。
这是底层控制在当前身体约束下给出的最省力、最稳定的动作组合。对系统来说,脚、髋、躯干和手并没有本质区别,都是可以用来完成目标的执行通道。
System 1 和 System 2 的设计,则保证了这种身体控制可以被用于长时间任务。
◎ System 2 只关心语义层面的事情,比如目标物体在哪里、当前做到哪一步、接下来该做什么;
◎ System 1 负责把这些目标转化为全身关节层面的运动意图。
关键在于,System 1 输出的并不是最终电机指令,而是一个始终落在 System 0 可执行范围内的目标空间。只要这个条件成立,系统就可以在数分钟内不断修正细节误差,而不至于越走越偏。
触觉和掌心相机的引入是一个很工程化的决定。
◎ 头部视觉在移动和操作同时发生时,遮挡几乎不可避免,尤其是在双手靠近身体、物体位于近场空间时。如果没有局部感知闭环,精细操作只能依赖高精度的位姿假设,一旦偏差积累就会失败。
◎ 掌心相机提供的是“操作第一视角”,而指尖触觉负责补上视觉无法覆盖的接触信息。这使得系统可以在抓取、旋转、分离小物体时,实时调整力的大小和方向,而不是一次性下达动作指令。
连续四分钟、六十多个动作没有被打断,系统在状态估计、控制稳定性和误差修复上都达到了一个此前很少见的水平。机器人不是在执行一段预录动作,而是在不断感知、判断和调整的过程中把任务完成。
小结
美国在软件层面有创新,这种能力几乎完全来自软件,控制系统更新后,机器人能处理的任务复杂度明显提高。Helix 02 可以支持全身协同控制并不是一个只能存在于论文里的目标,而是可以在真实机器人上长期运行的系统形态。
原文标题 : 机器人新势力:模型 Helix 02讲了什么?