GEN-1和千寻的共识:历史不会重复,但具身智能正在押韵Transformer

2026年04月07日 19:06
本文共计3871个字,预计阅读时长13分钟。
来源/具身研习社 责编/爱力方

作者:吕鑫燚    出品:具身研习社

人们身处历史的时候,总是后知后觉。

2018年,Open AI和Google BERT几乎同时开始尝试大语言模型里的新架构,名为“Transformer"。彼时学界与产业界给予了些许盛赞,但更多人只是将该架构视作一次方向性的验证落地。

直到2020年,GPT-3 175B 引爆“大模型+缩放定律”,全行业才终于确认:这是未来唯一主干。

也正是在此时,业内才意识到2018年那根引线早已悄然点燃,行业苦苦追寻的大模型时代里程碑,早已矗立在历史进程之中。

历史总是惊人的相似,2026年伊始具身智能也正沿着相似的辙纹前行。

前不久,美国Generalist AI发布GEN-1模型,将各类物理操作任务平均成功率从64%提升至99%,完成任务速度提升约3倍,每项任务仅需约1小时机器人数据完成适配。

Generalist打破了萦绕在具身智能产业上的所有痛点,一时间,那个被反复提及、近乎说烂了的具身智能“ChatGPT时刻”,好像不再只是空泛的PR话术,而是触手可及、清晰可预见的产业未来。

如果故事只到这里还远不足以称为2018的镜像。

Generalist所侧重的数据驱动和数据采集方式,和国内的千寻智能高度同频:以多样性数据驱动Scaling Law,通过可穿戴设备低成本采集人类操作数据预训练模型,再用少量机器人数据微调实现高泛化能力。

e1e29b56fc5b43979a940ccd033fce53.jpg

可见,产业内在讨论的不是某一家企业的技术路线验证成功,而是万亿投入后共同投票出来的解法,美国Generalist与中国千寻智能的同频,本质是全球具身智能在同一周期节点上的路径收敛。

正如2018年被视为里程碑,也不是某家企业的荣耀,而是属于Transformer的桂冠。

而今日千寻智能完成新一轮10亿元融资,30天内累计融资额达30亿元,更是资方的一次无声的默认。具身智能苦苦寻找的落地钥匙,或许已经握在我们手中。

d45dfbd5cefa319e1cc8832f193c1c13.png

步入2026年,数据虽已坐稳具身智能发展的底层基础设施,却在行业内卷中异化为部分企业的“挡箭牌”。面对落地迟缓的困局,不少主体习惯性将锅甩给“数据获取成本高”,甚至简单粗暴地将行业瓶颈归因于“资金都流向了数据”这种伪命题。

然而,当我们将目光投向GEN-1的研发路径,会发现这里充斥着一种截然不同的行业态度,对数据本身极致的敬畏与效率。

GEN-1的核心逻辑,是彻底颠覆了传统“机器教学”的范式。它主张模型在触碰真机之前,先通过海量人类行为数据建立起对物理世界的常识图谱,从而实现对真机数据依赖度的指数级降维。

从技术底层看,GEN-1的基础模型预训练阶段完全弃用传统机器人数据,转而依托穿戴式设备,采集了超过50万小时的人类日常行为数据流。这意味着,模型在出厂前就已经“看过”了人类生活的万千种可能。而在适配具体新任务时,它仅需叠加约一小时的机器人操作数据,就能完成从“懂道理”到“会干活”的完美迁移。

这就好比人类幼崽在迈出第一步前,早已通过观察父母、同伴的动作,在大脑中构建了运动的底层逻辑。GEN-1学到的不是孤立的指令,而是一套完整的、可以与世界交互的行为方法论。正如孩子只要学会了走路,奔跑便是水到渠成;GEN-1掌握了基础物理规则后,面对新任务也只需极小的数据量便能举一反三。

这种学习逻辑带来的红利是全方位的。以工业场景为例,GEN-1将折叠一个标准纸箱的耗时从34秒压缩至12.1秒,效率直接提升近三倍。

透过GEN-1,我们终于看清了这种“对数据的敬意”究竟指向何方:它并非意味着对数据路线的盲目崇拜,而是追求最高效的数据利用率。

而这条路并不是单纯可行,而是大有可为。这一点通过千寻智能与GEN-1同频共振,走出了一条高度契合的高效数据发展之路可见。

千寻智能同样选择基于海量人类互联网视频数据开展模型预训练,依托人类真实行为数据赋予模型对物理世界的基础认知。

截屏2026-04-07 18.27.54.png

截至目前,千寻智能已累计获取超20万小时多类型真实交互数据,数据来源覆盖互联网视频、遥操作、可穿戴设备采集等多元维度,全面打通不同场景下的人类行为数据链路,依托数据的丰富性与多样性,筑牢模型认知的基础。

这不是一条简单的数据量堆出来的智能,而是基于模型学会行为逻辑,能实现在更少参数量的前提下的更优模型效果,显著降低算力成本,走出了一条轻量化、高效化的发展新路。

此外,在强化学习阶段,千寻智能创新性地引入世界模型,聚焦未来状态的精准预测,以此辅助强化学习过程,优化模型决策与执行逻辑,让模型的学习更具前瞻性、更贴合真实世界的运行规则。

如此一来,模型不仅知道这一步的动作流是什么,更能预测某个环境因素发生改变后,下一步的动作流该如何执行。

千寻智能一系列布局,与GEN-1的核心逻辑一脉相承,同样是先通过人类数据建立世界认知,再通过少量针对性数据完成真机适配,兼顾效率与成本,彻底打破行业“数据贵、落地难”的困局,印证了高效数据利用才是具身智能发展的核心密钥。

从GEN-1到千寻智能,两家行业先锋虽各有研发侧重,却在数据理念上达成高度共识:具身智能的发展,从不是盲目堆砌数据、消耗算力,而是以敬畏之心对待数据,以高效逻辑利用数据,通过人类行为数据搭建认知基础,以少量精准数据完成落地适配。

这不仅为行业摆脱“数据借口”提供了可行路径,更指明了具身智能从实验室走向规模化商用的核心方向。以数据多样性为根基,以高效利用为核心,让模型真正读懂世界,而非单纯记忆数据。

a424d70ad334d24d476d7e3ae9a056c3.png

虽然在对数据的运用侧千寻智能和GEN-1高度契合,但依托于供应链成熟和场景更丰富的宏观优势,千寻智能已经在硬件和落地上走了先手棋。

从硬件来看,最制约模型能力落地也是最能将模型能力放大的就是末端执行器。目前,Generalist依旧采用两指设计,虽能满足80%场景的80%需求,但二指始终是弱化了模型价值。

例如,在面对不规则或极易形变的操作物体时,三指更能模拟人类手部活动轨迹,能解决二指无法覆盖的复杂工况,长期来看可减少工装投入、提升产线柔性,综合性价比在高端场景更突出。

得益于国内更成熟的供应链环境,千寻智能正在挑战的更高难度的硬件形态。

这条“自找麻烦”的差异化路线,不仅仅代表更好用,还意味着更高的操作上限和泛化能力,为模型学习人类级精细操作提供了更丰富的数据维度,进而反哺模型迭代,形成良性闭环,凸显了千寻智能长期主义的坚持。

另一方面,国内场景有着更加多元化的落地场景,为具身智能成为生产力提供了落地沃土。

这也是千寻智能最明显的优势,其在落地侧已经走出商业、工业并驾齐驱态势。

2025 年末,千寻智能的人形机器人“小墨”在宁德时代中州基地的电池 PACK产线上岗。并达成了连续运行中插接成功率稳定在99%以上和单日工作量实现了3倍提升的成绩。

这里需要提及一下,小墨在做的不是简单的抓取放置类工作,而是在非标环境下进行柔性物体操作,稍有偏差就可能导致事故。这标志着千寻智能已经在高严苛的工种中完成能力认证,工业场景不再是可望不可及硬骨头。

紧接着,千寻智能又和京东达成合作,以京东MALL为切入点,边干活边采集数据,形成服务即采集,采集即训练的迭代过程。

0c3b47dd6ad84f156e88f1a0fb9a73a7.jpg

和工厂中要求的精度不同,零售场景的运营特性主要为“变”,人流、动线、陈列频发变动,就连操作物体也会随着促销节点发生包装更新。

这意味着即便是拥有几十家、上百家的连锁店,都会呈现无法固定的移动动线,难以用统一方案满足所有店铺需求。

而千寻智能基于模型能力,可以通过较低的模型参数量,实现更优的性能表现。从根源上省去了 “一场景一适配” 的重复投入,大幅降低了在零售中跨场景落地的边际成本。

无论是宁德时代还是京东,千寻智能在落地的步伐都不是一锤子买卖,而是先满足需求再进行更精准的迭代,训练出更懂物理世界的模型能力。

千寻智能的实践证明:具身智能的竞争,早已不是单一技术或场景的比拼,而是技术能力、供应链能力、场景适配能力与生态协同效率的综合较量。

依托成熟供应链的硬件创新底气,叠加国内丰富场景的落地验证优势,千寻智能正以先手姿态,推动具身智能从单点突破走向产业普及。

f8eda8b645cc38c512f148881de84b07.png

当千寻智能飞奔时,资方也开启一轮又一轮的投票。4月7日,千寻智能完成新一轮融资,本轮融资由顺为资本、云锋基金联合领投,达晨财智、某头部人民币基金、银河源汇、图灵基金、新鼎资本、庚辛资本等重磅加持。

继2月完成近20亿元融资后,千寻智能在短短30天内再次获得资本加持,累计融资额达30亿。

be9d0f5cc6b5a31a856be79700a6433e.jpg

本次融资,顺为资本(雷军系)与云锋基金(马云系)罕见同台重仓。至此,千寻智能已经获得顶级资本、产业资本、国有资本的全方位资本押注。

这种不同底色、不同背景的资本集结,表明资本已彻底告别“概念盲投”时代,不再追逐实验室里的Demo参数,而是坚定投向技术路线已被验证、商业化落地见效的硬核选手。

千寻智能的30天30亿,正是资本市场对这条“用交付定义通用”路径的坚定投票。同时也是对“人类数据预训练+Scaling Law”这条技术路线的最高确认。

一边是海外顶尖玩家以技术突破验证通用智能的可行性,一边是千寻智能用连续融资与商业落地印证路线的商业价值。

都在标志具身智能不仅仅是一个拥有梦想和陡峭曲线,活在未来的产业。而是一个可以被量化,可以算清ROI的生产力。

中美赛道的头部力量,正以技术与资本两种方式,共同锚定同一条通往通用具身智能的道路。

历史不会简单重复,但总会押着相似的韵脚。

2018年我们错过了读懂Transformer的先机,而2026年,属于具身智能的时代大门,已在眼前正式敞开。

来源:GEN-1和千寻的共识:历史不会重复,但具身智能正在押韵Transformer | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/