人类数据赋能机器人智能探索感觉运动奥秘

出品：具身纪元

这篇文章来自 Danfei Xu 在 X 上发布的长文，核心命题是“人类数据本质上是伪装的机器人数据”。作者认为，随着可穿戴设备与传感技术成熟，我们已经能够在大规模上记录人类从感知到动作的映射，并将其用于机器人学习。文章进一步追问：如果语言模型可以从文本中“召唤语义幽灵”，我们是否也能从行为数据中“召唤感觉运动幽灵”。

2024年末，我在CoRL上做了一场演讲

来源：https://x.com/danfei_xu/status/2027034645892624528

2024年末，我在CoRL上做了一场演讲，核心论点很简单：人类数据本质上是伪装的机器人数据。

我的主张是，通过充分的传感和状态估计，人类行为可以被捕捉并视为另一个"机器人"的数据：虽然形态不同、驱动和传感堆栈不同，但仍然是由相同物理规律支配的从感知到动作的映射。利用Meta Reality Labs的技术，我们的工作提供了早期证据，证明机器人性能确实可以随着传感化人类数据而扩展。

随着消费级可穿戴设备的兴起，我们现在可以直接记录这个映射的大部分输入和输出，从自我中心视觉到头部、手部，甚至全身运动。我预测，世界规模的人类体验数据的未来已经不远了。

从那时起，形势已经改变。我原本预期消费级可穿戴设备的采用会是主要瓶颈。但实际上，已经有数十家公司在收集和销售自我中心人类数据，每周都有新公司宣布进入这个领域。

世界规模的传感化人类数据集比我预期的要近得多。

然而有些事情保持不变。我们仍然在与具身差距作斗争。从纯人类数据到机器人执行的零样本迁移仍然无法实现。大型视频预测模型很有前景，但预测一个合理的未来并不能保证在真实接触下的有意义动作。在预测的未来和物理执行之间仍然存在最后一英寸（或牛顿）的差距。几毫米的误差、几毫秒的延迟，或单个牛顿的力差都可能决定物体是滑落还是保持稳定。目前，这个差距仍然需要大量的机器人数据、精心的人类传感和机器人硬件协同设计，或两者兼有。

与此同时，我认为对人类的建模不仅是改进机器人的一种策略。它本身就是一个有意义的科学目标。从大规模数据中恢复人类感觉运动智能是一个在很大程度上仍未解决的基础研究问题。机器人是一个部署目标。更大的雄心是理解人类感觉运动智能是否可以作为一个学习模型被恢复。

现代人工智能在很大程度上是一个知识转移问题。我们寻求将人类知识大规模转移到机器中。

大型语言模型是典型例子。它们吸收世界规模的文本，并将其蒸馏成一个参数函数。强化学习和偏好调优进一步完善输出。智能的来源仍然是人类生成的内容。

Andrej Karpathy将训练现代LLM比作"召唤幽灵"。这些幽灵是人类语义知识的统计蒸馏。它们是由我们集体认知塑造的不完美复制品，但足够强大，能够充分再现人类知识的结构，足以进行推理、解释和创造。

在机器人学中，我们正在尝试类似的事情，但远没有那么成功。我们试图召唤一个感觉运动幽灵：不仅仅是人类写下的内容，还包括人类如何在物理世界中感知、适应与行动。我们目前最流行的方法是遥操作。然而，遥操作会扭曲人类行为，许多自然且细微的感觉运动智能从未进入数据集。

人类行为中有一些独特的动物性。其中很大一部分在意识范围之外运作。它是快速的、反应性的，并与运动和感知深度整合。这就是人们所说的系统1。

当肩膀被轻拍时，我们转身。当物体掉落时，我们伸手去接。当什么东西飞向脸部时，我们退缩。当皮肤感受到热量时，手在语言形成之前就缩回了。这些反应不是计划的。它们不是内部叙述的。它们不是通过深思熟虑的推理优化的。它们是由进化和终身与物理世界的相互作用塑造的嵌入式反射。

遥操作很少能捕捉到这一层。这层智能是连续的，与身体紧密耦合，并通过密集的感觉反馈进行校准。它依赖于感知和动作之间的毫秒级循环。遥操作，即使延迟很低，也会将操作者推入不同的状态。界面强制执行深思熟虑的行为。反射通过操纵杆、VR控制器进行调解，反馈被大量过滤。

除此之外，日常人类数据还包含遥操作几乎从不捕捉的东西：丰富的人与人之间的互动。现实世界的大部分互动都是社交性的。物体被递交，工具被共享，注意力被协调，意图在言语之前从动作中推断出来。这些互动在任何其他机器人数据源中都完全缺失，因为很难仅用机器人来模拟和复现。它们在日常生活中自然出现，当我们捕捉人类在自己的环境中操作时是独特可观察的。

如果我们的目标是恢复人类对物理和社交世界所具有的具身先验，我们需要在原地记录的行为，而不是刻意的演示。平凡的可能比精心策划的更有价值。

图注：假设自然人类感觉运动行为可以大规模捕捉，下一个问题是：我们能否学习产生它的函数？

给定足够丰富的观察和足够完整的动作捕捉，是否存在一个可学习的函数，以与人类相同的方式将感知映射到动作？

换句话说，我们能否对人类进行行为克隆？

语言模型通过给定上下文自动完成文本来学习。感觉运动的类似物将通过从感知自动完成意图和动作来学习。

问题在于当这个目标被扩展时会出现什么。在语言领域，它产生了上下文学习、推理和智能体能力。扩展动作预测可能会产生物理常识：知道物体会下落、堆叠会坍塌、重物会抵抗运动，光滑表面需要调整。然而，这种理解不会表现为显式的物理前向模型。它会直接表现在行为中。稳定的抓握、微妙的推动和快速纠正会编码世界的结构，而无需显式地表示它。就像语言模型在没有规则书的情况下内化语法一样，具身模型可能通过仅预测行为来内化物理。

我们也有具体证据表明克隆人类是可能的，并且对下游机器人学习有帮助。来自我们NVIDIA团队的最近工作表明存在一个有前景的缩放规律：我们用来预训练模型的人类数据越多，它在跨多样化任务建模人类方面就越好，甚至对于"野生"场景也是如此。我们还观察到其他新兴特性，例如对新的、高度灵巧的操纵任务的单次泛化，以及强大的语言命令跟随能力。

图注：在最近一项名为EgoScale的工作中，我们发现了行为预测（中间）和人类到机器人转移（右侧）性能的强正相关缩放，随着我们增加预训练人类数据的数量。

在更高的层面上，我们也可以问系统2（思考的"费力"部分）是否也能从克隆人类中出现。一个纯粹在多模态输入输出流上训练的模型能否开发出长视野规划、长上下文记忆和解决困难问题的能力？在语言中，一旦模型达到足够的规模和上下文长度，新兴推理就出现了。具身类似物将是物理世界中智能体能力的出现：一个模型不仅预测人类接下来会做什么，而是隐式地围绕记忆的目标、未完成的动作和预期的未来状态组织行为。

那么是什么阻止我们用人类数据蛮力扩展VLA？我的观点是限制不在于目标，而在于机器人学习堆栈本身。当前的管道仍然严重依赖视觉，缺少通常决定控制决策的信号，例如声音、力和接触反馈，所以我们只捕获运动和结果，但不捕获产生它们的控制命令。同时，主流模型对瞬时观察做出反应，尽管人类行为取决于长视野记忆、空间背景和未完成的目标。在实践中我们已经观察到这个限制：具有数十亿参数的模型仍然欠拟合数万小时的人类数据。因此，扩展人类行为可能需要从端到端重新思考堆栈，从数据捕获到建模。

即使我们成功地召唤了一个感觉运动幽灵，我们仍然必须将其放入一个身体中才能使其有用。

预测不是控制。能够预测人类行为的模型还不知道如何通过特定机器人行动。我们仍然需要将合理人类未来的分布接地到一个具体的控制序列中，该序列在机器人的感知、动力学和执行限制下有效。

这需要我所谓的效果驱动的重定向。目标不是重现人类轨迹，而是在世界中重现其效果。给定人类动作/意图，系统必须推断机器人在不同运动学、顺应性、延迟和力限制下必须做什么才能实现相同的结果。这是一个困难的逆问题。映射不仅取决于解决机器人逆动力学，还取决于反应控制以在下一秒实现子目标。

许多最近的工作试图通过更好的视觉对齐或视频预测来缩小差距。它们可能改进表示学习并弥合外观差距，但接地最终是关于物理交互。对人类稳定的抓握可能对具有略微不同指尖摩擦力的机器人失败。容忍毫秒级人类反射循环的运动可能在较慢的控制带宽下不稳定。有些人可能会说强大的学习逆动力学模型（IDM）将解决这个问题。我主张学习这个IDM可能和预测问题本身一样困难（甚至更困难）。

使机器人更像人类可以减少功能重定向的搜索空间。共享的形态和感知使幽灵的先验与宿主身体更兼容。但具身相似性单独不能解决问题。模型仍然必须适应新的执行器堆栈、新的顺应性和新的控制约束。从行为到控制的转换即使对于人形机器人也仍然是非平凡的。

一个替代方案是硬件数据协同设计，我们通过限制人类而不是适应机器人来减少具身差距。这样的系统可以简化重定向并改进数据效率，并取得了巨大成功。然而，从长远来看，我相信可扩展的路径不是将人类行为缩小到机器人已经可以执行的范围，而是扩展我们的模型和机器人，使它们能够吸收自然的人类数据。

如果过去十年的人工智能是关于建模语言、图像和视频，那么下一个十年将是关于建模行为。问题不再是人类行为是否可以大规模捕获。那个未来已经在到来。

真正的问题是我们是否能够深入学习它，以恢复产生它的智能结构。如果我们成功，结果不仅仅是更好的机器人。它将是第一个关于人类如何在物理世界中行动的学习理论。机器人仅仅是我们部署它的第一个地方。

来源：召唤感觉运动幽灵：从人类数据到机器人智能 | 具身研习社

通知

尊敬的用户

user

资讯

人类数据赋能机器人智能探索感觉运动奥秘

人类数据赋能机器人智能探索感觉运动奥秘

相关图文

杨立昆AI初创公司获10.3亿美元融资发力世界模型研发

蚂蚁集团大规模招聘技术人才 AI岗位占比超八成

美军强硬表态：诉讼难撼Anthropic供应链风险认定

韩企建数据工厂挑战智元人形机器人竞赛升级

卧龙电驱联手智元机器人创立智龙未来注册资本2000万元

台积电前两月营收增长30% 美伊战火或影响AI热潮走向

热门资讯

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

微软研究高温超导技术破解数据中心供电难题

美国一家人形机器人企业突发倒闭

海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

字节跳动发布Seedance 2.0，Tim揭露AI训练黑盒

LaST₀：赋予机器人物理直觉，摆脱语言依赖像人类思考动作

快讯

动力电池隐形难点破解国产CT机问世

小红书打击AI托管账号养龙虾式运营将被封号

杨立昆AI初创公司获10.3亿美元融资发力世界模型研发

AI生成虚假信息典型案例曝光

蚂蚁集团大规模招聘技术人才 AI岗位占比超八成

机器人产业爆发元年资本狂热与未来隐忧

市场缩量普涨英伟达链反弹机器人概念回暖

小红书重拳整治AI托管账号与虚假互动

美军强硬表态：诉讼难撼Anthropic供应链风险认定

韩企建数据工厂挑战智元人形机器人竞赛升级

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

人类数据赋能机器人智能 探索感觉运动奥秘

人类数据赋能机器人智能 探索感觉运动奥秘

相关图文

杨立昆AI初创公司获10.3亿美元融资 发力世界模型研发

蚂蚁集团大规模招聘技术人才 AI岗位占比超八成

美军强硬表态：诉讼难撼Anthropic供应链风险认定

韩企建数据工厂挑战智元 人形机器人竞赛升级

卧龙电驱联手智元机器人创立智龙未来 注册资本2000万元

台积电前两月营收增长30% 美伊战火或影响AI热潮走向

热门资讯

豆包亮相春晚 送出超10万份科技礼品及8888元现金红包

微软研究高温超导技术破解数据中心供电难题

美国一家人形机器人企业突发倒闭

海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

字节跳动发布Seedance 2.0，Tim揭露AI训练黑盒

LaST₀：赋予机器人物理直觉，摆脱语言依赖像人类思考动作

快讯

动力电池隐形难点破解 国产CT机问世

小红书打击AI托管账号 养龙虾式运营将被封号

杨立昆AI初创公司获10.3亿美元融资 发力世界模型研发

AI生成虚假信息典型案例曝光

蚂蚁集团大规模招聘技术人才 AI岗位占比超八成

机器人产业爆发元年 资本狂热与未来隐忧

市场缩量普涨 英伟达链反弹 机器人概念回暖

小红书重拳整治AI托管账号与虚假互动

美军强硬表态：诉讼难撼Anthropic供应链风险认定

韩企建数据工厂挑战智元 人形机器人竞赛升级

推荐专栏

爱力方

机器人大讲堂

下一篇

人类数据赋能机器人智能探索感觉运动奥秘

人类数据赋能机器人智能探索感觉运动奥秘

杨立昆AI初创公司获10.3亿美元融资发力世界模型研发

韩企建数据工厂挑战智元人形机器人竞赛升级

卧龙电驱联手智元机器人创立智龙未来注册资本2000万元

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

动力电池隐形难点破解国产CT机问世

小红书打击AI托管账号养龙虾式运营将被封号

杨立昆AI初创公司获10.3亿美元融资发力世界模型研发

机器人产业爆发元年资本狂热与未来隐忧

市场缩量普涨英伟达链反弹机器人概念回暖

韩企建数据工厂挑战智元人形机器人竞赛升级