芝能科技出品
当物理世界开始“阅读”逻辑,英伟达GTC大会会场却弥漫着一种紧张而兴奋的气息。
过去几年,AI的热潮主要停留在数字世界:文本、图像、模型推理,但今年的焦点已转向具身智能(Embodied AI)。
宇树科技创始人王兴兴的《如何迈过具身智能的ChatGPT时刻》,回答一个困扰机器人学界半个世纪的问题:为什么让机器写诗如此轻松,而让它像三岁孩子一样稳稳倒一杯水却极难?
ChatGPT的爆发让数字世界迎来了逻辑涌现,而物理世界正屏息以待它的“破茧时刻”。
01
重塑边界:
什么是真正的“ChatGPT时刻”
过去十年,机器人行业一直停留在“提线木偶”阶段。
无论是工厂里挥舞的机械臂,还是餐厅里滑行的送餐机器人,它们本质上都是规则的奴隶:程序员写下if-else指令,定义在A点做什么,在B点避开什么。
王兴兴称,这种“结构化环境下的优异表现”,只是伪智能。
真正的具身智能,需要泛化能力:当你把机器人放进一个它从未见过的厨房,它应像初入职场的学徒,通过视觉扫描环境,识别洗手池、抹布和杯子,并根据一句“帮我洗个杯子”,自主规划出抓取、冲洗、控干的动作序列。
为了量化这个概念,他提出了“80-80法则”:在80%的陌生环境中,仅凭语言指令完成约80%的任务。
◎ 环境陌生度:机器人的感知编码能力必须足够强大,即便光线昏暗、杂物堆积,或地形复杂,它仍能准确定位目标。
◎ 任务完成率:机器人必须在没有预演的情况下,处理诸如“杯子滑落”“水流溅射”等突发动态问题。
只有跨过这条线,机器人才能从“昂贵的工业摆件”变成社会基础设施。至于时间表,这个“ChatGPT时刻”最快1-2年内到来,慢则2-3年。
数字世界可以通过算力暴力突破,但物理世界面临重力、摩擦和不可预测的突发状况——这里的挑战不仅是比特(Bit)的碰撞,更是原子(Atom)的较量。
02
核心技术挑战:
三大深水区
具身智能之所以迟迟未至,是因为它必须解决三个底层技术难题,王兴兴形象地称之为机器人的“小脑发育不足”“阅历贫乏”和“记忆断层”。
● 动作表达的高维陷阱
抓取一个生鸡蛋的动作,看似简单,但其实涉及数百个肌肉纤维与神经末梢的高频协作。对于人形机器人而言,这意味着几十个关节自由度(DoF)的毫秒级同步。
目前大多数机器人只能完成离散动作,如“走过去”“伸手”“抓取”,但现实中动作应像丝般顺滑、连续组合。瞬态控制尤为关键:湿滑地面行走时的平衡调整,要求模型具备极高推理速度和动作编码解码能力。
● 数据的贫矿难题
与大语言模型不同,机器人无法吞下整个互联网来“训练”。王兴兴提出“混合喂养”策略:
◎ 互联网视频为主食:通过观看人类操作视频,机器人建立对物理世界的初步认知。
◎ 仿真合成数据为点心:在数字孪生世界中进行亿次跌倒、抓取尝试。
◎ 真机微调为灵魂:利用少量高质量真实数据对模型进行微调和对齐。
这里的核心不是数据量,而是数据利用效率。
● 强化学习的规模效应迷思
强化学习在AI领域被视为通往AGI的钥匙,但在机器人上存在“阅后即焚”的问题:训练一次开门可能需要大量数据,但这些经验往往无法复用。
王兴兴强调,需要建立可积累的策略库,让新任务学习可以借用旧任务逻辑碎片——就像学会骑自行车的平衡感会迁移到骑摩托车。
03
硬件与应用进化:
从实验室到社会基础设施
硬件演进是具身智能落地的基础。宇树科技的产品呈现出清晰阶梯:从小型研究平台到工业作业,再到复杂环境生存能力。
● G1:人形机器人的极客先锋
身高1.3米的G1紧凑灵巧,不追求威猛,而是验证在有限体积内如何塞进足够自由度与传感器。它成为全球开发者研究动作算法的标准化平台。
● H1:工业肌肉劳力
身高1.8米的H1关注生产力和安全。在中大型作业场景,它需与人保持2-3米安全距离,独立完成作业岛任务。这代表未来工厂机器人逻辑的重构:不再是邻座帮手,而是独立数字工匠。
● As2:轻量化巡逻者
四足机器人As2用于复杂地形巡逻,高防护、高负载、长续航。它为AI算法积累真实室外环境数据,是“ChatGPT时刻”到来前的特种兵。
AI端的发展也在硬件上实现落地:世界模型和VLA(视觉-语言-动作)模型让机器人能够在仿真与真实环境中进行“白日梦”,预测动作结果和环境反馈,逐步提升生产场景胜率。
全球协同与开源策略,让知识碎片和算法积累不再局限于单个实验室,而是形成可迁移的产业级智能生态。
小结
具身智能的未来是社会生产力和生活方式的重塑。王兴兴认为,当黎明破晓,机器人将成为“铁同事”,与人类在物理世界共处,而我们需要理解、规划并善用这场技术变革。
原文标题 : 机器人行业临界点:王兴兴聊具身智能的“ChatGPT时刻”