一文带你了解【人形机器人】:它如何像人一样思考与行动?

一文带你了解【人形机器人】:它如何像人一样思考与行动?

2025年11月05日 17:35
本文共计2841个字,预计阅读时长10分钟。
来源/乔豆会社 责编/爱力方

作者:乔豆    出品:乔豆会社

张江园区调研的时候,你可能会与一位特殊的“同事”擦肩而过——它或许正踉跄前进、或稳健小跑、或悠闲散步。这不再是科幻电影,而是机器人产业日常调试的一幕。

人形机器人正从科幻快速走向现实,是当前科技领域最令人兴奋的前沿之一。

人形机器人:是一种基于人类身体结构设计的智能机器。

旨在适应人类环境并执行人类任务(可以理解成模仿我们人类的样子和能力,和我们的世界进行更好的交互,与人类共同实现更多价值创造)。

图、人形机器人

(资料来源:Tesla optimus)

【核心构成-类比人类】

核心构成:人形机器人可以类比成人类,把核心构成分解为“大脑”(负责决策)、“小脑”(负责控制)、“感官”(负责感知)、“关节与肌肉”(负责执行)四大核心系统。

它们共同形成了一整套与世界的交互路径:①感知、②推理/决策、③控制、④执行

我们可以通过一个简单的例子来理解系统之间是如何协同工作的:

“比如,让机器人从桌上拿起一个苹果”

Step1:感知系统先工作,感受环境:

看到了一个在桌上,通过视觉和深度信息计算出它的精确定位和姿态。

Step2:大脑系统开始推理/决策:

任务指令是拿起桌上的,经过感知系统收集到的信息进行规划路径:先用双足走到桌前,机械臂移动到上方,然后控制灵巧手进行抓取。

Step3:小脑系统精细控制

将路径规划分解:比如灵巧手进行抓取,分解成每个手指关节的转动角度、速度和扭矩;并实时接收感知系统的反馈,确保动作平稳精准。

Step4:关节与肌肉系统执行

关节与肌肉系统在小脑系统的指令下精确运动,驱动机械的双足、机械臂、灵巧手、手指等通过直线或旋转的运动,实现拿的目的。

其他:

①整个运动过程中,感知系统会执行再反馈比如,当手部触碰到时,会感知抓握的力度,防止抓得太紧捏坏或抓得太松导致滑落,这个信息会立刻反馈给小脑系统和大脑系统。

②实时调整小脑系统根据力反馈实时手部抓力调整,大脑系统确认抓取成功后,会下达下一个指令。

视频、人形机器人仿人作业过程(拿苹果)

(资料来源:Figure)

image.png

【核心构成-机械世界】

刚刚我们看到,机器人在执行“从桌上拿起一个苹果”指令时,需要定位、行走、精准抓取、控制以及反馈等分解环节;

其背后是一套精密软件和硬件在协同工作,这套软件和硬件又分别是什么呢?是如何让机器人分步实现了一项项仿人类的动作?

让我们走进机械世界

机器人的“感官”:多模态感知系统

主要由各类传感器实现:

一、环境感知:①视觉传感器(如深度相机、激光雷达):捕获光线信息,构建三维环境模型、识别环境及物体。“比如识别和所在位置”。②听觉传感器(麦克风阵列):捕获声波信息,用于语音交互和声源定位。

二、交互力感知:①力矩传感器(六维力传感器):精确测量机器人与外界接触时产生的力和扭矩。“比如拿起时抓力的大小”②触觉传感器(电子皮肤):感知压力、温度等表面接触信息,实现精细操作。三、自身状态感知:

①惯性传感单元(IMU,内耳前庭-平衡感):测量机器人自身的运动加速度和旋转角速度,感知姿态。“比如实现从当前状态,流畅行走到桌子前去拿”

②编码器(关节处-本体感觉):将环境中的”位置”和“运动”翻译成机器能懂的“数字语言”,可以理解成【翻译官】。

图、各类传感器集锦

(资料来源:互联网信息整理)

机器人的“大脑”:高级决策与规划

负责高级认知功能,包括环境感知、决策制定和任务规划。

“大脑”的思考功能主要由多模态大模型(类似【智能中枢】)、主控芯片(类似【大脑躯体】)实现,传输功能一般由EtherCAT(类似【神经网络】)实现:

①多模态大模型:

01 LLM(大语言模型)+VFM(视觉基础模型)→02VLM(视觉-语言模型)→03VLA(视觉-语言-动作模型)→04多模态大模型

图、大模型发展阶段

(资料来源:甲子光年)

②主控芯片:

实现模型涉及的复杂计算和功能。

利用硅的半导体特性,制造出亿万颗能用电压精确控制的微型开关(晶体管),通过精确控制无数的“开”和“关”,排列组合,最终实现了各种计算功能。

③EtherCAT(实时工业以太网):

是一种高性能的实时工业以太网协议,专为工业自动化控制设计,是连接“大小脑”的神经网络。只有主站(master)即“大脑”能够发出指令,从站即“各个身体部位”接收指令。

(比如“大脑”发出指令,会在整个人形机器人的“身体”里飞速传输:数据包经过每个需要执行动作的环节(比如手、双足等)时不停顿,各环节只快速处理属于自己的指令,并立刻传给下家,让所有环节微秒级同步。)

视频、EtherCAT的执行过程

(资料来源:YouTuberealpars)

image.png

经过上面的感知系统和“大脑”的信息加工处理后,机器人“看”到的世界大概是下面这个样子的:

视频、人形机器人的“大脑”识别

(资料来源:YouTube)

image.png

机器人的“小脑”:精密运动控制

控制器是机器人的小脑核心,负责接收规划指令并转化为具体的运动命令,再通过驱动器、功率器件完成将数字指令转化为物理动作的最终执行环节。

①微控制器(MCU)/DSP等微处理器:

接收来自“大脑”的高级指令和各类传感器的反馈数据,运行复杂的控制算法,计算出电机需要达到的具体目标。

②栅极驱动器:

接受小脑信号,其核心作用是提供瞬时的大电流,放大指令。

③功率器件:

对驱动器提供的大电流进行通断的“阀门”,实现电机的驱动。

主流选择可分为MOSFET(硅基)\GaNFET(氮化镓)。

图、“小脑”系统的核心构成

(资料来源:互联网信息整理)

机器人的“关节与肌肉”:动力执行系统

机器人的“关节与肌肉”负责将控制信号转化为物理运动,是机器人执行动作的基础。

①电机:

即动力源 (肌肉),主流电机包括伺服电机 、无框力矩电机、空心杯电机,核心工作原理是将电能转化为机械能。如同肌肉收缩舒张,为运动提供最根本的动力。

②传动机构 (减速器&丝杠):

类似于关节和肌腱

01 减速器:

降低电机转速、放大输出扭矩。如同人体的关节。

主流减速器有谐波减速器、RV减速器、行星减速器

02 丝杠:

将旋转运动转换为直线运动。如同人体的肌腱,将电机的转动变成手臂的伸缩、腿部的迈步等直线动作。主流的丝杠有行星滚柱丝杠(高端人形机器人如Optimus线性关节的首选)、滚珠丝杠、梯形丝杠

图、动力执行系统的核心构成

(资料来源:互联网信息整理)

【小结】

通过前文的梳理,我们以两种视角解构了人形机器人的核心构成:

第一部分,以人体为喻,机器人各部件比作“大脑”(负责决策)、“小脑”(负责控制)、“感官”(负责感知)、“关节与肌肉”(负责执行),举例解读了其如何模仿人类实现灵活作业。第二部分,我们回归机械本质,拆解其技术底层:基于传感器的“感官系统”(视觉、触觉)、承载算法的“芯片与大模型”(大脑)、精准的“编码器与伺服系统”(小脑的运动控制)、以及执行动作的“电机、丝杠、减速器”(肌肉与关节)。

图、人形机器人核心构成及成本图谱(以Tesla Optimus 2为例)

(资料来源:特斯拉、摩根士丹利、深圳中电港)

 

声明:本文来自乔豆会社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯