机器人的“楚门世界”:用第一视角视频喂养的AI,将永远活在人类的“主观现实”里

机器人的“楚门世界”:用第一视角视频喂养的AI,将永远活在人类的“主观现实”里

爱力方

爱力方

2025年11月25日 15:28
本文共计2216个字,预计阅读时长8分钟。
来源/互联网 责编/爱力方

具身智能的漫漫征途上,一个长期以来,被视为“圣杯”级的、却又看似无解的核心难题,正被一支来自加州大学圣地亚哥分校(UCSD)的团队,以一种极具想象力、也极具“普惠”色彩的方式,悍然攻破。

这个难题是:如何,为机器人,去采集到足够多的、高质量的、多样化的、能够反映真实世界复杂性的“人类演示数据”,从而,让它们,在面对一个全新的物体、一个全新的环境时,不再“认生”和“手忙脚乱”?

近日,该团队,正式地,推出了其名为Human0的、全新的机器人操控基础模型。

其核心,是开创了一套,能够将海量的、非结构化的、来自于人类日常活动的第一视角视频数据,高效地,“翻译”为机器人可以理解和执行的动作指令的、全新的“数据+训练+适配”组合拳。

这场革命的起点,是一个名为PHSD(人类-人形机器人物理交互数据集)的、全新的“超级数据集”。

研究团队,没有去耗费巨资,录制全新的、专用的机器人演示视频。

恰恰相反,他们,像一个聪明的“厨师”一样,巧妙地,将两种不同来源、不同特性的数据,“烹饪”在了一起:

  • “主食”: 超过1000小时的、来自于EgoDex、ActionNet等公开数据源的“野生场景”数据。

    • 这些数据,包含了人类在日常生活中,所进行的、无穷无尽的、各种各样的动作——从开瓶盖、叠衣服,到切蔬菜、洗盘子。它们,为模型,提供了最基础的、关于“这个世界是如何被操作的”的、海量的“动作直觉”。
  • “配菜”: 超过20小时的、专门针对机器人将要执行的、特定任务而录制的“任务导向”数据。

    • 例如,让一位快餐店的员工,戴着眼动仪,完整地,演示一遍制作汉堡的全过程。这些数据,确保了模型,在学习了广泛的“通识”之后,也能掌握特定任务的“专业技能”。

然而,比数据的“配比”,更具颠覆性的,是团队,为这些异构的数据,所设计的一套“统一的翻译系统”。

他们,创造了一套“人类中心态-动作空间”(Human-centric State-action Space)。

通过复杂的逆运动学和手部重定向算法,无论是人类手臂的运动,还是Unitree H1、G1等不同型号机器人的、不同关节的数据,都能够被无损地,转换成一套统一的、与具体“身体”形态无关的参数。

这,就像是,无论你说的是中文,还是英文,最终,都被翻译成了,计算机可以理解的、统一的二进制代码。它,从根本上,解决了那个,长期以来,一直困扰着“跨物种学习”的“具身差异”(Embodiment Gap)问题。

而为了防止模型,在学习中“耍小聪明”——例如,仅仅是去记住人类手的肤色,或机器人关节的金属光泽,而非真正地,去理解动作背后的通用逻辑——团队,还引入了一种精妙的“域对抗”机制。

他们,训练了一个额外的“域判别器”,让它,去拼命地,分辨输入的数据,究竟是来自人类,还是来自机器人。

与此同时,他们,又用一个“梯度反转层”,去不断地“捣乱”。

每当判别器,快要学会如何区分时,梯度反转层,就会反转其训练的方向,从而,逼迫那个真正负责学习动作的“策略网络”,放弃所有那些与“身体”相关的“捷径”,去专注于学习那些,真正通用的、可被迁移的“与具身无关的特征表示”。

实验结果,清晰地,证明了这种机制的有效性:在加入了这套机制之后,判别器区分数据来源的准确率,从100%,骤降至了50%——这,与随机的瞎猜,已无任何区别。

这套精妙的“组合拳”,最终,在Unitree H1和G1这两款真实的人形机器人上,展现出了惊人的、三大突破性的能力:

  1. 能听懂“没听过”的指令:

    • 在多目标抓取任务中,当机器人,被下达“去抓那个黄色的芥末瓶”这个指令时——尽管,这个指令,只在人类的“野生数据”中出现过,而从未,在机器人的训练数据中,被明确地标注过——但它,依然,准确地,找到了那个瓶子。
  2. 学一个新技能,只需要看“一遍”演示:

    • 对于一个,机器人完全没有接触过的、需要双手精妙配合的“倒水”任务,Human0,在仅仅观看了1个人类演示视频之后,便能达到25%的任务成功率。
    • 这个数字,虽然不算高,但相比于所有其他的、在同样条件下,成功率为0的基线模型,已经是一个巨大的飞跃。
  3. 换一个新场景,也不会“懵”:

    • 在汉堡制作的任务中,当研究人员,故意地,将食材,换成了机器人从未“见过”的红卷心菜和瑞士奶酪时,其任务的成功率,依然,从基线模型的25%,大幅提升至了58.3%

爱力方的分析认为,UCSD的这项Human0研究,其意义,已远超一次单纯的模型性能提升。

它,更深刻地,为整个行业,提供了一套可被复用的、极具价值的方法论

  • 在数据层面,它,明确了“野生数据打基础、任务数据做精修”的、兼顾了“数量”与“质量”的全新思路。
  • 在技术层面,它,通过“统一表征”和“域自适应”的巧妙组合,成功地,打通了从“人类的演示”,到“机器人的执行”的、那条最关键的“能力迁移通道”。
  • 在应用层面,它,让机器人“懂新指令、学新技能”的能力,意味着,我们,距离那个,不再需要为每一个新的场景,都去进行昂贵的、独立的模型训练的“通用机器人”时代,又近了一大步。

现在,该团队,已经计划,去开源其PHSD数据集、模型权重和重定向工具。

一个由“人类的第一视角”,所共同哺育的、更聪明、也更具泛化能力的机器人新物种,或许,正在我们的眼前,加速地,诞生。

项目地址:https://xiongyicai.github.io/In-N-On/

论文链接:https://arxiv.org/pdf/2511.15704

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯