作者:乔豆 出品:乔豆会社
张江园区调研的时候,你可能会与一位特殊的“同事”擦肩而过——它或许正踉跄前进、或稳健小跑、或悠闲散步。这不再是科幻电影,而是机器人产业日常调试的一幕。
人形机器人正从科幻快速走向现实,是当前科技领域最令人兴奋的前沿之一。
人形机器人:是一种基于人类身体结构设计的智能机器。
旨在适应人类环境并执行人类任务(可以理解成模仿我们人类的样子和能力,和我们的世界进行更好的交互,与人类共同实现更多价值创造)。
图、人形机器人
(资料来源:Tesla optimus)

【核心构成-类比人类】
核心构成:人形机器人可以类比成人类,把核心构成分解为“大脑”(负责决策)、“小脑”(负责控制)、“感官”(负责感知)、“关节与肌肉”(负责执行)四大核心系统。
它们共同形成了一整套与世界的交互路径:①感知、②推理/决策、③控制、④执行
我们可以通过一个简单的例子来理解系统之间是如何协同工作的:
“比如,让机器人从桌上拿起一个苹果”
→
Step1:感知系统先工作,感受环境:
看到了一个在桌上,通过视觉和深度信息计算出它的精确定位和姿态。
Step2:大脑系统开始推理/决策:
任务指令是拿起桌上的,经过感知系统收集到的信息进行规划路径:先用双足走到桌前,机械臂移动到上方,然后控制灵巧手进行抓取。
Step3:小脑系统精细控制
将路径规划分解:比如灵巧手进行抓取,分解成每个手指关节的转动角度、速度和扭矩;并实时接收感知系统的反馈,确保动作平稳精准。
Step4:关节与肌肉系统执行
关节与肌肉系统在小脑系统的指令下精确运动,驱动机械的双足、机械臂、灵巧手、手指等通过直线或旋转的运动,实现拿的目的。
其他:
①整个运动过程中,感知系统会执行再反馈比如,当手部触碰到时,会感知抓握的力度,防止抓得太紧捏坏或抓得太松导致滑落,这个信息会立刻反馈给小脑系统和大脑系统。
②实时调整小脑系统根据力反馈实时手部抓力调整,大脑系统确认抓取成功后,会下达下一个指令。
视频、人形机器人仿人作业过程(拿苹果)
(资料来源:Figure)

【核心构成-机械世界】
刚刚我们看到,机器人在执行“从桌上拿起一个苹果”指令时,需要定位、行走、精准抓取、控制以及反馈等分解环节;
其背后是一套精密软件和硬件在协同工作,这套软件和硬件又分别是什么呢?是如何让机器人分步实现了一项项仿人类的动作?
让我们走进机械世界
机器人的“感官”:多模态感知系统
主要由各类传感器实现:
一、环境感知:①视觉传感器(如深度相机、激光雷达):捕获光线信息,构建三维环境模型、识别环境及物体。“比如识别和所在位置”。②听觉传感器(麦克风阵列):捕获声波信息,用于语音交互和声源定位。
二、交互力感知:①力矩传感器(六维力传感器):精确测量机器人与外界接触时产生的力和扭矩。“比如拿起时抓力的大小”②触觉传感器(电子皮肤):感知压力、温度等表面接触信息,实现精细操作。三、自身状态感知:
①惯性传感单元(IMU,内耳前庭-平衡感):测量机器人自身的运动加速度和旋转角速度,感知姿态。“比如实现从当前状态,流畅行走到桌子前去拿”
②编码器(关节处-本体感觉):将环境中的”位置”和“运动”翻译成机器能懂的“数字语言”,可以理解成【翻译官】。
图、各类传感器集锦
(资料来源:互联网信息整理)

机器人的“大脑”:高级决策与规划
负责高级认知功能,包括环境感知、决策制定和任务规划。
“大脑”的思考功能主要由多模态大模型(类似【智能中枢】)、主控芯片(类似【大脑躯体】)实现,传输功能一般由EtherCAT(类似【神经网络】)实现:
①多模态大模型:
01 LLM(大语言模型)+VFM(视觉基础模型)→02VLM(视觉-语言模型)→03VLA(视觉-语言-动作模型)→04多模态大模型
图、大模型发展阶段
(资料来源:甲子光年)
②主控芯片:
实现模型涉及的复杂计算和功能。
利用硅的半导体特性,制造出亿万颗能用电压精确控制的微型开关(晶体管),通过精确控制无数的“开”和“关”,排列组合,最终实现了各种计算功能。
③EtherCAT(实时工业以太网):
是一种高性能的实时工业以太网协议,专为工业自动化控制设计,是连接“大小脑”的神经网络。只有主站(master)即“大脑”能够发出指令,从站即“各个身体部位”接收指令。
(比如“大脑”发出指令,会在整个人形机器人的“身体”里飞速传输:数据包经过每个需要执行动作的环节(比如手、双足等)时不停顿,各环节只快速处理属于自己的指令,并立刻传给下家,让所有环节微秒级同步。)
视频、EtherCAT的执行过程
(资料来源:YouTuberealpars)

经过上面的感知系统和“大脑”的信息加工处理后,机器人“看”到的世界大概是下面这个样子的:
视频、人形机器人的“大脑”识别
(资料来源:YouTube)

机器人的“小脑”:精密运动控制
控制器是机器人的小脑核心,负责接收规划指令并转化为具体的运动命令,再通过驱动器、功率器件完成将数字指令转化为物理动作的最终执行环节。
①微控制器(MCU)/DSP等微处理器:
接收来自“大脑”的高级指令和各类传感器的反馈数据,运行复杂的控制算法,计算出电机需要达到的具体目标。
②栅极驱动器:
接受小脑信号,其核心作用是提供瞬时的大电流,放大指令。
③功率器件:
对驱动器提供的大电流进行通断的“阀门”,实现电机的驱动。
主流选择可分为MOSFET(硅基)\GaNFET(氮化镓)。
图、“小脑”系统的核心构成
(资料来源:互联网信息整理)

机器人的“关节与肌肉”:动力执行系统
机器人的“关节与肌肉”负责将控制信号转化为物理运动,是机器人执行动作的基础。
①电机:
即动力源 (肌肉),主流电机包括伺服电机 、无框力矩电机、空心杯电机,核心工作原理是将电能转化为机械能。如同肌肉收缩舒张,为运动提供最根本的动力。
②传动机构 (减速器&丝杠):
类似于关节和肌腱
01 减速器:
降低电机转速、放大输出扭矩。如同人体的关节。
主流减速器有谐波减速器、RV减速器、行星减速器
02 丝杠:
将旋转运动转换为直线运动。如同人体的肌腱,将电机的转动变成手臂的伸缩、腿部的迈步等直线动作。主流的丝杠有行星滚柱丝杠(高端人形机器人如Optimus线性关节的首选)、滚珠丝杠、梯形丝杠
图、动力执行系统的核心构成
(资料来源:互联网信息整理)

【小结】
通过前文的梳理,我们以两种视角解构了人形机器人的核心构成:
第一部分,以人体为喻,机器人各部件比作“大脑”(负责决策)、“小脑”(负责控制)、“感官”(负责感知)、“关节与肌肉”(负责执行),举例解读了其如何模仿人类实现灵活作业。第二部分,我们回归机械本质,拆解其技术底层:基于传感器的“感官系统”(视觉、触觉)、承载算法的“芯片与大模型”(大脑)、精准的“编码器与伺服系统”(小脑的运动控制)、以及执行动作的“电机、丝杠、减速器”(肌肉与关节)。
图、人形机器人核心构成及成本图谱(以Tesla Optimus 2为例)
(资料来源:特斯拉、摩根士丹利、深圳中电港)
