对话灵初智能CEO王启斌:花一年把数据成本打下来,比抢着做人形机器人更重要

2026年03月13日 10:31
本文共计3041个字,预计阅读时长11分钟。
来源/机器人大讲堂 责编/爱力方

近日,灵初智能宣布完成天使轮及Pre-A轮融资,合计20亿元,由国家级国资资本与核心产业资本共同注资。

天使轮由国开金融、国中资本、央视融媒体产业投资基金等国家级“国家队”资本,某数千亿上市公司旗下战投、长飞光纤旗下基金,两大核心产业龙头资本,沃德尔等知名产业资本,及元生创投、珠海科技产业集团、钧山投资、燕缘创投、大米资本、沃赋资本、彬复资本、泰合资本等多家知名基金共同投资。

Pre-A轮由上海国资徐汇资本等基金领投,梁溪科创产业二期母基金(博华资本管理)、锡创投等地方国资,及普丰资本、钛铭资本等市场化基金跟投,多家老股东实现超额跟投。华兴资本担任长期财务顾问。本轮融资将加速灵初智能在物流场景的规模化落地与数据采集体系建设。

在资本热潮之外,更值得关注的是这家公司对自身战略的清晰定位。“灵初不是一个典型的做硬件的公司,我们是一个模型公司。”

这家由前云迹科技、京东算法团队核心成员创立的公司,从成立之初就选择了一条略显“反常识”的路径:不做核心零部件,不碰移动底盘,甚至不急于打造完整的双足人形机器人。他们瞄准的方向是“操作”,更准确地说,是通用灵巧操作。

“从2015年前后兴起的第一波配送机器人热潮开始,行业就始终没能攻克‘手’上的操作难题,”王启斌说。

在长达一小时的采访中,王启斌系统阐述了灵初智能在数据采集、硬件边界、场景落地与商业化节奏上的核心判断。在他看来,具身智能正处于一个需要“冷启动”的关键阶段,而破局的关键,正是高质量、低成本的人类操作数据。

01.

数据的“冷启动”难题:为什么不能复制特斯拉模式?

谈及硬件,王启斌的回答显得有些“非典型”。他坦言,目前无论是灵巧手还是关节模组,都远未达到大规模工业应用(如百万次寿命)的水平。“大家都在疯狂迭代,”他说,“硬件到底是多少自由度,其实是由模型的能力和数据的需要在定义的。”

基于此判断,灵初智能的策略十分清晰:不做核心零部件,只做必须做的硬件——数据采集设备。

 

王启斌将当前的具身智能行业困境总结为“冷启动难题”。他类比了特斯拉的FSD(全自动驾驶)模式:“特斯拉的启动是因为Model 3在2017年发售后,很快做到了百万台的年销量,底层数据回流,让FSD快速迭代。但具身智能最大的难题是:数据从哪里来?”

这是一个典型的“鸡生蛋”问题:因为缺乏数据,模型无法泛化,导致机器人无法大规模部署;因为无法部署,低成本的真实世界数据又回不来。而仿真数据的Gap(差距)太大,无法直接用于训练泛化模型。

因此,灵初智能选择的第一个战场,既不是双足 locomotion,也不是关节模组的性能竞赛,而是数据基建。

02.

不是UMI,是“人类多模态数据”

去年,UC Berkeley提出的UMI(Universal Manipulation Interface)范式在全球引发关注,其核心思路是用低成本的人持夹爪采集数据。但这条路径也有其局限性,UMI采集的不是人类数据,是人带了一个和机器人一模一样的夹爪,这个数据无法泛化到一个五指灵巧手上。

灵初智能的选择是回归“人本”采集人类的操作数据。其推出的“灵初数据采集引擎”并非简单的数据手套,而是一个集成了视觉(多视角)、触觉(压阻/电容)、21个关节角信息的复杂系统。

这种思路的差异决定了后续模型的泛化能力上限。灵初智能的方案首先学习的是人类操作本身的底层逻辑。在此基础上,模型再通过“重定向”(retargeting)技术,将人类操作意图映射到不同结构、不同自由度的机器人本体上。这意味着,只要预训练模型对人类操作的理解足够深刻,它就能适应多种硬件形态,而非被锁定在某一种特定的机械构型之中。

 

这套方案的成本优势同样显著。据透露,这套数据采集设备的硬件投入成本仅为真机遥操作方案的十分之一。今年3月之后,他们还将推出可携带的便携式版本,目标是让数据采集成本再降一个量级,甚至未来通过“众包”模式,让普通人在工作和生活中佩戴手套采集数据,实现去中心化的数据回流。

“成本只能保证数据大规模Scaling,并不能保证模型能训练出效果。如何把高信噪比的数据训进模型,这才是灵初的核心竞争力。”

03.

物流场景的真相:远比“Pick and Place”复杂

在商业化落地的选择上,灵初智能扎进了物流场景,但切口极为具体:衣服供包、入箱拣选、分拨墙。这些听起来并不性感的场景,在灵初智能看来却是当下模型能力的“试金石”。

“物流远远比pick and place复杂,”他举了商超补货的例子,“商超补货,要把一箱东西拆开,拿出来放到容器里,推到货架,放上去,还要理货+ 。往挂钩上挂东西,开冰箱门补饮品,还要把过期的拿出来。这是十几个动作的序列。”

 

目前外界对于机器人物流的难度存在严重低估。很多人认为物流机器人只需要完成简单的“抓取-放置”动作,但实际场景中,物品的形态千差万别:从软塌塌的衣物、易滚动的瓶罐,到不规则的包裹、堆叠的纸箱,每一种物品都对机器人的感知、规划和操作精度提出了极高要求。

这个任务背后,是对视觉识别、柔性抓取、轨迹规划、力控的综合性挑战。据透露,灵初智能目前在衣服供包场景的节拍已经做到800 UPH(Units Per Hour),作为国内最高水平已经进入客户现场陪产阶段。

04.

技术管线:从预训练到后训练的完整闭环

面对外界对于“模型碎片化”和“场景泛化边界”的担忧,Viktor详细拆解了灵初智能的完整技术管线,将其类比为大语言模型的训练过程:

预训练(Pre-training):利用数据手套大规模采集长程、多任务的人类操作数据。这一步相当于培养一个“中学生”,他的知识面很广(泛化性强),但在任何具体任务上都不够精专。

后训练(Post-training/Teleop):在选定落地的真机上,进行少量(约100小时级)的遥操作数据采集。这一步让模型适配特定机型的“身体”结构。

真机强化(RL fine-tuning):通过强化学习提升任务的成功率和节拍。

端侧推理与纠错(Inference & Correction):在真实部署中,遇到无法自动恢复的Corner Case,由人工介入纠错,这些数据再回流到模型中进行迭代。

 

预训练数据决定了泛化能力的广度,后训练与强化数据决定了具体场景下的性能高度。越往后的数据质量越高,但泛化性越窄。这种分层的数据体系与模型迭代路径,确保灵初智能既不会因聚焦具体场景而失去通用性,也不会因追求泛化而无法落地。

05.

十年长周期,数据是当前主旋律

对于具身智能的整体发展阶段,灵初智能认为这是一个长达十年的长周期赛道,目前仍处于Gartner曲线的早期。硬件百花齐放的第一波浪潮已经过去,当前正迎来第二波——数据浪潮。

他认为,数据本身需要成为一种可持续的商业模式,才能真正推动行业向前发展。在这一阶段,灵初智能的目标非常明确:2026年,公司将把真实世界的人类操作数据规模提升至百万小时级别,并基于此训练出一个高度泛化的预训练模型。相应的,公司也将围绕数据采集设备的销售、数据资产的变现以及场景解决方案的交付,建立多元化的商业模式。

当外界聚焦于人形机器人的外在形态与双足运动时,灵初智能选择了一条更具长期价值的务实路径:回归数据源头,致力于将“教机器人操作”的成本降下来。这或许不是一个性感的叙事,但在通往通用具身智能的路上,谁掌握了数据的低成本供给,谁就可能握有未来的入场券。

来源:对话灵初智能CEO王启斌:花一年把数据成本打下来,比抢着做人形机器人更重要 | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯