作者:李鑫 出品:具身智能大讲堂
2025年,具身智能无疑是科技领域最受瞩目的焦点。社交平台上,人形机器人做家务、打球、跳舞蹈的视频刷屏,让人仿佛觉得科幻电影中的场景即将照进现实。

国内市场竞争日趋白热化,宇树科技、云深处科技、乐聚机器人等企业正在排队等待上市,势必重新定义人形机器人的市场估值。硬件层面,宇树人形机器人R1以3.99万元人民币击穿成本底线,紧随其后的是加速进化Booster K1、松延动力Bumi的万元级人形机器人在电商成为销量爆品。

海外市场,Figure AI与Open AI分手后,开发自研端到端模型Helix,估值一年内暴涨15倍至390亿美元,微软、英伟达等巨头纷纷入局。

而另一边是特斯拉Optimus 5000台量产目标仅完成1000台便暂停生产、重新设计。同时号称美国制造的开源机器人公司K-Scale Labs因融资失败倒闭。这场“冰与火交织”的行业图景,不禁让人追问:具身智能究竟是资本催生的泡沫,还是技术演进的必然?

接下来就让我们一起复盘2025年具身智能产业正在上演“罗生门”。
1►从会说话到会动手:具身智能如何让机器人看懂、听懂、做到?
要理解行业的发展逻辑,首先要厘清具身智能的本质。如果说ChatGPT是“会说话”的AI,专注于语言交互与逻辑推理,那么具身智能就是“会动手”的AI,核心目标是让机器人在物理世界中自主完成任务。其技术核心是VLA(Vision-Language-Action)视觉-语言-动作模型,通过一个统一的神经网络,实现“看得懂、听得懂、做得到”三大核心能力的融合。

Vision(视觉):机器人通过传感器捕捉周围环境信息,精准识别物体的位置、形态、状态等关键特征,为后续动作提供环境依据。
Language(语言):依托大语言模型的技术积累,理解人类的自然语言指令,同时结合常识判断,明确任务目标与执行逻辑。
Action(动作):将视觉感知与语言理解的结果,转化为具体的机械控制指令,驱动机器人完成抓取、移动、操作等物理动作。
与传统工业机器人相比,具身智能机器人实现了质的飞跃。传统工业机器人必须在预设的结构化环境中执行编程好的固定动作,一旦环境发生微小变化就会失效;而具身智能机器人则能根据环境变化自主调整策略。

例如叠毛巾任务,传统机器人要求毛巾每次摆放位置、形态完全一致,这在实际的家庭场景当中是完全不可能出现的,细微的偏移就足以让传统机器人不知所措,而具身智能机器人则能够通过VLA模型,识别毛巾的褶皱、偏移,实时调整动作轨迹,高效完成叠放,虽然目前包括谷歌DeepMind在内的头部研究机构所展示的机器人叠毛巾、衣服并不完美,但明显能够看到具身智能机器人在叠毛巾、叠衣服这件事的进化速度快得离谱。

机器人大讲堂曾多次报道的Dyna Robotics公司创始人、浙大校友杨世远也是在这一件事情上死磕,凭借DYNA-1( Dynamism v1)首个商用机器人基础模型,让机械臂连续工作 24小时,叠了800多张餐巾纸,并保持 99%以上的成功率,正是因为这种极具确定性的商业场景试水成功,也让该公司在成立仅一年当中就获得1.2亿美元A轮融资,估值达6亿美元,英伟达等巨头均在其投资方名单中。
值得注意的是,VLA模型中“Language(语言)”的加入曾引发争议,传统机器人算法多基于纯视觉感知,为何要额外增加语言模块?核心原因在于长线复杂任务的需求。人类在执行“喝水”“做早餐”等任务时,大脑会通过类似语言逻辑的思考,规划“找杯子→接水”“拿鸡蛋→打蛋→煎制”等步骤。语言模块的价值,正是将大语言模型中已训练成熟的逻辑推理能力迁移到机器人身上,让机器人具备多步骤任务的规划能力,摆脱“只能完成短线简单动作”的局限。这种“感知-理解-执行”的闭环,让机器人从“机械执行者”升级为“智能决策者”。
2►三大驱动力 将具身智能推向商业化前夜
具身智能并非全新概念,21 世纪后,随着大模型与机器人技术融合,具身智能成为行业通用术语,2023年10月,黄仁勋在ITF World 半导体大会上明确指出 “人工智能的下一个浪潮将是具身智能”,强调其核心是AI与物理世界的互动,而两年之后的2025年,具身智能也迎来了新的产业爆发奇点。

大模型技术成熟:提供可靠“智能大脑”
近年来,大语言模型的发展进入“稳步精进”阶段。无论是OpenAI的GPT系列,还是其他科技公司的同类产品,技术提升已从早期GPT-3.5到GPT-4的跨越式跃迁,转变为增量式演进。这种稳定性的提升,让大模型能够成为具身智能系统的“基础能力层”。
ChatGPT等产品已充分验证了大语言模型在复杂指令理解、多步骤规划、常识推理等方面的强大能力,而这些能力可以直接迁移到机器人领域。
当人类发出“帮我准备早餐”的指令时,机器人能借助大模型的逻辑推理,自动拆解出“取食材、处理食材、烹饪、摆盘”等一系列步骤,为动作执行提供清晰的路径规划。
算力成本骤降:降低行业准入门槛
算力是AI技术发展的“基础设施”,而2025年具身智能的爆发,离不开算力成本的大幅下降。随着芯片厂商持续推出性能更强的新一代芯片,等效算力的单位成本呈现长期下降趋势,往往每隔几年就会降至此前的一半。

地瓜机器人算力平台与开发套件极大降低客户算力成本
2023年,租赁一张NVIDIA H100 GPU的费用堪称“天价”,只有头部科技公司能负担大模型训练成本;而到了2025年,云服务厂商之间的算力竞争日趋激烈,算力价格持续走低,使得创业公司也能获得足够的算力支持,参与到具身智能的技术研发与产品创新中。这种算力普惠,极大地激活了行业创新活力,让更多参与者得以入局。
硬件供应链成熟:打破成本瓶颈
机器人硬件的成熟度,直接决定了具身智能的商业化可行性。在过去一年人形机器人热潮的推动下,大量资本和工程资源涌入核心基础部件的研发,电机、减速器、传感器等关键组件的技术不断迭代,不仅性能更稳定,成本也持续下降。
此前,行业普遍认为人形机器人的成本底线在2-3万美元,这一价格使得规模化商用难以实现;而国内公司宇树、众擎、加速进化、松延动力等本体厂商的入局,彻底打破了行业的价格预期。硬件成本的陡降,让具身智能的商业化不再是天方夜谭。
3►从商用落地到家用探索,具身智能的“能与不能”
2025年,具身智能行业的核心转变是从炫技式Demo转向务实性落地,行业不再追求全能机器人,而是聚焦真实场景的实用价值。目前,具身智能的能力边界已清晰呈现:在结构化的工业、商业场景中实现规模化应用,在中等难度的长线任务中取得技术突破,而在家用等非结构化场景中仍面临巨大挑战。
已落地:结构化场景的商业化应用
在工业、商业等结构化环境中,具身智能机器人已成为实实在在的生产力工具,多个应用案例已实现规模化落地。
服务场景:银河通用零售仓是全球首个商用人形机器人全自主零售仓方案,以自研 Galbot G1 机器人与 GroceryVLA 端到端具身大模型为核心,实现零售仓全流程无人化运营。其 50㎡标准仓可承载 5000 种 SKU、6000 个货道,适配软包装、硬盒、透明件等多形态商品,泛化抓取成功率达 95%。Galbot G1 轮式折叠机身可 360° 转向,摸高 2.4 米,无需预设路径即可自主完成盘点、补货、拣选、打包全流程,支持 7×24 小时稳定运转。目前该方案已在北京海淀医疗零售仓常态化运营。
工业场景:优必选以 Walker S 系列工业人形机器人为核心,凭借全栈式技术与 Co - Agent 智能体、群脑网络 2.0 等核心技术,深耕新能源汽车、3C 制造、智慧物流等工业场景。其旗舰机型 Walker S2 身高 1.76 米,52 个自由度,搭载第四代工业级灵巧手,亚毫米级操作精度,耐久性超 8 万次,支持 90 秒自主换电,可 7×24 小时不间断作业。该系列已批量落地极氪、比亚迪、奥迪一汽等工厂,覆盖 SPS 分拣、精密装配、智能质检等任务,2025 年 11 月 Walker S2 开启量产,月产能 300 台以上,累计订单金额超 8 亿元,是全球进入最多车厂实训的工业人形机器人方案。
巨头布局:京东与美团在2025年疯狂入局具身智能,分别锚定供应链与即时零售履约核心场景,推动具身智能加速落地。京东 2025 年 3 月成立具身智能专项部门,以JoyInside 品牌为核心载体,2025 年618期间,京东具身智能机器人销售额同比增 17 倍。
通过 “六连投” 布局帕西尼、智元机器人、千寻智能等企业,覆盖全产业链关键环节,同时依托物流场景推进机器人落地应用。美团聚焦即时配送,自研 “小黄蜂” 配送机器人已在深圳宝安机场等试点,累计配送超 1 万单,最远配送距离近 1 公里。
此外通过美团机器人研究院攻关核心技术,美团连续投资宇树科技、普渡机器人等企业,覆盖感知、驱动等关键环节,2025 年在具身智能赛道有多起投资布局,推动末端履约无人化。
上面三大应用场景的共同特点是“环境结构化、流程标准化、容错率相对较高”,机器人只需在预设范围内完成特定任务,无需应对复杂多变的环境,这与具身智能当前的技术成熟度高度匹配。
待突破:中等难度的长程任务与跨本体多机协同
目前,头部企业正在集中攻关中等难度的任务,这些任务多为多步骤长线任务,对机器人的规划能力、动作精准度提出了更高要求。
单机器人长程任务:以“做早餐”为代表,这类任务需要机器人完成“拿取食材、切菜、开火、翻炒、摆盘”等一系列步骤,每一步都需要精准控制力度(如不捏碎鸡蛋)、规避风险(如不切到手)。目前,在长程任务的实现上,部分企业已经逐渐攻破了技术壁垒,长程任务的成功率也在稳步提升。
多机协同任务:北京人形机器人创新中心在今年3月发布全球首个 “一脑多能”“一脑多机” 的通用具身智能平台“慧思开物”,支持多机协同与跨本体适配的协同作业模式。优必选群脑网络(BrainNet)架构,融合 Co - Agent 智能体,搭配人形智能网联中枢(IoH),支撑多机协同与产线级群体作业,是工业人形机器人规模化落地的关键技术。
其采用 “超级大脑 + 智能小脑” 端云协同架构:超级大脑依托多模态具身推理大模型,负责意图理解、任务拆解、异常监测与混合决策,实现复杂产线任务统筹;智能小脑基于 Transformer 架构,提供跨场域感知、精准运动控制与分布式学习,保障动作执行与技能快速迁移。
这类任务的核心挑战在于步骤连贯性与动作精准性的平衡,需要机器人在复杂的任务逻辑中,始终保持稳定的执行能力,这也是技术攻关的核心方向。
高门槛:家用场景的非结构化挑战
尽管商用场景进展迅猛,但具身智能机器人进入家庭仍面临巨大的技术门槛,核心原因在于家庭环境的非结构化与零容错要求,放眼望去,今年面向家庭场景的具身智能人形机器人仅有1X Technologies的Neo机器人进行了全球销售,不过在各项表现上却差强人意,涉及具体的作业环节,基本上均由人类专家进行远程操作完成,完全看不到一丁点具身智能的影子,这本质上还是受困于以下两个方面。
非结构化环境的复杂性:每个家庭的布局、光照条件、物品摆放都不同,且存在家庭成员走动、物品位置变动等动态因素。相比之下,工厂等结构化环境光线固定、物品位置明确、流程标准化,机器人更容易适应;而家庭中的桌布褶皱、透明物体反光、物品随意摆放等微小变化,都可能干扰机器人的视觉感知,影响任务执行。
零容错的安全要求:机器人在工业场景中若出现失误,打碎零件的损失可控;但在家中,一旦出现失误,可能导致碗碟破碎、家具损坏,甚至造成人员受伤。人类能够凭借直觉和经验瞬间适应环境中的微小物理变化,但依赖数据驱动的AI大模型,面对这些未在训练数据中出现的场景,往往难以快速应对。
不过,行业对家用场景的探索并未停滞。业内普遍认为,家用机器人无需等待“全能AGI”的实现,而是可以采取单点突破、逐步迭代的策略,先以叠衣服、扫地等单一高频功能切入家庭市场,通过模型迭代持续拓展能力边界;同时,随着硬件成本进一步下降,当价格降至普通家庭可承担的范围时,家用场景的规模化落地将成为可能,这一时间线或在1-2年左右。
4►2025年具身智能领域重点关注的四大关键技术
2025年,具身智能的技术突破并非革命性颠覆,而是聚焦于可验证、可量化、可复现的务实进步。
架构创新:“快思考+慢思考”的双系统分工
为解决“快速反应”与“复杂规划”的矛盾,多家企业开始采用“System 1+System 2”的双系统架构,这种架构模拟了人类大脑的决策模式,实现了不同任务场景的高效适配。
•System 1(快思考):负责抓取、移动等反射性动作,参数量小(仅约8000万参数),反应速度快,能够快速响应简单的环境变化,完成基础性动作。
•System 2(慢思考):负责“做早餐”等复杂长线任务的规划,参数量大(约70亿参数),能够进行多步骤逻辑推理,制定详细的任务执行方案。
Figure AI的Helix端到端模型是这一架构的典型代表。在与OpenAI“分手”后,Figure AI仅用两周时间便自主研发出Helix模型,验证了双系统架构的可行性。这一突破也证明,机器人基础模型的发展逻辑与大语言模型不同,并非参数越大越好,最重要的是要看是否足够精准。
数据突破:合成数据缓解“数据荒”
数据是具身智能的“石油”,但机器人操作数据的收集面临“慢、贵、险”的困境,需要真实机器人在真实环境中反复操作,耗时耗力,且容易因操作失误损坏设备,远不如文本数据可通过爬虫快速获取。为解决这一问题,英伟达推出NVIDIA Isaac GR00T方案,依托 Isaac Sim 仿真器与 Cosmos 世界基础模型构建,是专为机器人训练生成大规模合成轨迹数据的端到端流水线,可在 11 小时生成 78 万条操作轨迹,等效 6500 小时人类演示数据,极大地缓解了“数据荒”的燃眉之急。
但需要注意的是,机器人模型与大语言模型对数据质量的要求存在本质差异。大语言模型即使输入包含广告等低质量内容的文本数据,也能通过海量数据训练自动过滤无效信息;而机器人模型若纳入繁杂的低质量数据,会导致模型无法聚焦关键信息,最终影响执行效果。因此,合成数据虽能解决“数量问题”,但如何提升合成数据与真实数据的一致性、保证数据质量,仍是行业需要持续攻克的难题。
适配升级:跨机器人泛化能力落地
此前,每一款机器人都需要单独训练专属模型,不仅成本高昂,还制约了技术的规模化应用。2025年,跨机器人泛化能力的突破,为行业降本增效提供了新路径。Physical Intelligence的π0模型、开源的OpenVLA模型等,能够实现一套模型适配多种机器人,无论机器人的形态、手臂长度、关节数量存在多大差异,无需重新训练,模型即可有效控制机器人完成任务。
这一突破的核心价值在于数据共享与成本降低,但技术难度同样不小,不同机器人的动作空间、硬件参数差异巨大,如何让一个模型兼容这些差异,实现精准控制,是行业面临的核心挑战。目前,跨机器人泛化能力虽未达到100%完美,但已实现实质性进步,为行业规模化发展扫清了重要障碍。
协同进化:多机协同技术进入验证阶段
在工业生产、仓储物流等场景中,多台机器人协同工作能大幅提升效率,因此多机协同技术成为2025年的重要突破方向。Figure AI展示了创新性的多机协同方案:通过单一神经网络,同时控制两台机器人的协作,不仅能实现单台机器人上半身35个自由度的精准控制,还能保证两台机器人在时序、力度、位置上的同步适配。
这一技术看似简单,实则难度极高,多台机器人需要实时感知彼此的状态,动态调整动作,避免碰撞或配合失误。目前,多机协同技术仍处于早期验证阶段,但已为未来工厂、智能仓储等场景的自动化升级提供了新的可能性。
5►五大核心难题,制约具身智能规模化发展
尽管2025年具身智能取得了一定的突破,但行业依然面临许多棘手问题尚未解决。解决这些问题并非一蹴而就,需要行业长期攻坚。
数据稀缺:缺乏“等效人类一生”的高质量数据集
ChatGPT的训练依赖万亿级的文本token,相当于“吸收”了整个互联网的文字资源;而机器人操作数据的稀缺程度超乎想象。谷歌训练RT-2模型时,在真实厨房场景中耗时17个月,仅收集到13万条操作数据,但其场景泛化能力仍有限。
Physical Intelligence的研究员曾做出大胆预测:人类一生约有100万个小时的物理经验,而目前行业内尚无任何一家企业拥有等效于这一规模的数据集。只有当机器人模型积累了足够的高质量操作数据,才能真正实现场景的全面泛化,而当前“数据井尚未打通”的现状,仍是行业发展的首要瓶颈。
需要关注的是2025年上半年,特斯拉大胆地放弃了动作捕捉与遥操作,转向视频训练的方式。马斯克也在采访中透露:“目前机器人训练需要大量算力和时间,依赖人类动作捕捉,预计未来几年实现关键突破,机器人可通过YouTube视频自主学习,快速掌握新技能”。
看到这个趋势的其实不止有特斯拉,国外的Skild AI 提出了利用视频数据解决数据瓶颈的方法,国内的逐际动力、千寻智能、智在无界都提出用视频数据来赋予机器人智能。
不过最为出彩的应该还是枢途科技自主研发的SynaData数据管线,该技术能从互联网单目视频中提取多模态、高精度的具身训练数据,破解了行业长期面临的数据成本与质量困境,尽管当前在精度与泛化性上还有提升空间,但其综合成本仅为传统数据采集成本的千分之五,这无疑为具身智能的规模化落地打开了巨大的想象空间。
虚实鸿沟:虚拟训练与现实应用的“水土不服”
在虚拟世界中训练机器人具有低成本、高效率的优势,可以同时运行数万个模拟器,快速生成海量训练数据。但虚拟世界永远无法完全复刻真实世界的物理特性:真实环境中的摩擦力、物体柔软度、光线变化、微小振动等复杂因素,模拟器只能部分还原。
这就导致机器人在虚拟环境中表现出色,进入真实世界后却容易出现水土不服。比如在模拟器中能精准抓取物体,在真实环境中却可能因物体表面纹理差异而失败。尽管英伟达的Genesis和Isaac模拟器在持续优化,试图缩小这一差距,但要完全消除虚实鸿沟,仍需要长期的技术积累。
具身鸿沟:人机差异导致的能力迁移难题
人类的手拥有27个关节,能够精准感知压力、温度、物体质地,这种精细的感知与操作能力,是机器人难以复刻的。目前,最先进的机器人灵巧手也仅有15-22个关节,传感器的精细度也远不及人类皮肤。这就形成了“具身鸿沟”,即使机器人完美模仿人类的动作轨迹,也难以达到相同的操作效果。
更关键的是,即使机器人的硬件设计无限接近人类,也无法完全等同于人类的身体结构,这导致人类的操作数据难以直接迁移到机器人身上。行业普遍认为,具身鸿沟是当前学术界和工业界公认的难题,它使得数据迁移效率极低,即使收集了大量人类操作数据,最终能被机器人模型有效利用的可能仅占30%-50%,这进一步加剧了数据稀缺的问题。
可靠性要求:零失误的严苛标准
大语言模型的失误成本极低——ChatGPT回答错误,用户笑笑即可忽略;但具身智能机器人的失误可能引发严重后果,打碎贵重物品、损坏设备甚至伤害人员,都是无法接受的。因此,具身智能必须达到“极高的可靠性”,才能真正走进工厂、家庭等场景。
这种可靠性要求不仅包括动作执行的精准度,还包括对突发情况的应急处理能力(如遇到障碍物自动规避、操作失误时及时止损)。目前,行业尚未建立起完善的可靠性验证体系,机器人在复杂场景中的失误率仍难以控制,这成为制约其规模化应用的重要因素。
成本困局:“鸡和蛋”的循环难题
人形机器人的商业化普及,离不开成本与规模的良性循环,但目前行业陷入了“鸡和蛋”的困局,市场共识是,人形机器人的价格需降至2万美元左右,才能在物流、服务等场景形成足够的市场吸引力,撬动大量订单。但价格下降的前提是规模化生产,只有产量达到一定规模,才能通过供应链优化、分摊研发成本实现降价。而规模化生产又需要足够的订单支撑,订单量不足则无法实现规模化,成本也就难以降低。
这一循环困局需要行业玩家打破僵局,要么有企业愿意投入巨额资金,以亏损换规模;要么通过技术创新进一步降低核心部件成本,直接拉低产品价格。但目前,行业尚未出现这样的破局者,价格战能否如期到来、行业成本能否持续下降,仍有待观察。
结语与未来:
2025年,具身智能已彻底告别概念炒作,迈入务实落地的关键阶段。技术层面,参照北邮方斌教授提出的具身智能灵巧操作技术等级分类(L0-L5),行业整体处于 L2-L3 水平,技术框架已完整跑通,可实现结构化场景下的基础灵巧操作,不过仍需突破数据积累、虚实鸿沟等核心瓶颈,按照当前迭代速度,1-2 年内有望向 L4 水平实现质的跨越。
商业化路径上,工业、仓储等 B 端场景将率先掀起规模化交付浪潮,家用场景则相对较晚,很有可能后续会以单点功能突破的模式逐步渗透,规模化落地周期可能会在5-10年甚至更久。资本市场分化持续加剧,具备全栈技术与场景落地能力的企业将成为资本共识,马太效应会进一步显现。
2025 年只是这场革命的序章,尽管还有很多难题仍然需要长期攻坚,但技术迭代与商业化的步伐不可逆转,让我们一同期待2026年具身智能时代的到来。