Sergey Levine与Waymo对谈:规模化、语言与通用智能的探索

Sergey Levine与Waymo对谈:规模化、语言与通用智能的探索

爱力方

爱力方

2025年12月03日 15:19
本文共计9134个字,预计阅读时长31分钟。
来源/互联网 责编/爱力方

人工智能(AI)的这场、日益追求规模化与泛化的全球竞赛中,一场来自两位行业顶尖思想家的、跨越十年经验的深刻对谈,正在为我们,揭示物理世界AI的“生存法则”。

上周三,Physical Intelligence联合创始人、加州大学伯克利分校教授Sergey Levine,与Waymo AI研究员Vincent Vanhoucke,进行了一场深入的播客对谈。

其核心,是围绕AI机器人自动驾驶如何实现规模化、泛化,并最终落地商业应用,进行了一次十年周期的复盘与前瞻。

十年前,当后来共同创立OpenAI的Ilya Sutskever,拿到Levine关于“引导策略搜索”的论文时,他便预言:“规模,才是AI成功的关键。”

d9446e1e3ecdf396683ac99ebc17dfac.png

这个观点,贯穿了Sutskever的信仰,并最终,驱动了OpenAI在大型语言模型(LLM)领域的巨大突破。

然而,Levine坦言,他早期的研究,虽然验证了端到端学习在机器人操作中的可行性,但仅用四小时机器人数据进行训练的系统,未能真正触及“规模化”这个核心命题。

8904f6c88c8f429a508266a261cc0048.png

“我从中得到的教训是,我必须更认真地对待规模化问题,然后我基本花了接下来的十年,试图把它搞清楚。”Levine表示。

这场“规模化”的追逐,在机器人领域,面临着独特的挑战。Levine指出,机器学习成功的秘诀是训练数据与测试时间相匹配。这意味着,必须有越来越接近实际的真机部署。

“为了实现规模化,机器人需要通过实际部署来克服‘启动门槛’,大规模地收集自己的数据,并创建一个持续的‘飞轮’,使系统不断自我改进。而实现这个‘飞轮’的最佳方式,就是走向商业化,在现实世界中实现部署。”他说。

ceb2feafd52c439e4026b61b2000652b.png

在过去十年的探索中,Levine的思维轨迹,也经历了几次关键的转变。

关于“常识”的缺口:

Levine曾参与Google的ARM Farm研究,该项目尝试让大量机器人自主学习任务。尽管这种集体学习方法在规模上有所突破,但其局限性也同样明显——“它缺失的是通用常识。”Levine指出,由于缺乏一个能提供粗略常识性解决方案的“引擎”,系统仅限于非常简单的行为。

d723d656d753f02e762fe9a4b9fc15bf.png

关于“语言”的价值重估:

Levine早期认为,机器人应该先处理感知和运动控制,语言并非优先。但后来他意识到,语言在机器人技术中具有重要价值,并非因为语言本身,而是因为它能够非常有效地捕捉“先验知识”(prior knowledge)。而这种先验知识,正是通往“常识”的关键,使系统能够在从未做过特定事情的情况下,进行粗略推断。

在“泛化能力”与“组合性”这两个具身智能的核心难题上,Levine也分享了深刻的洞察。

ba1d03e339c34fc522cd9b515bdce2c4.png

他认为,现代机器学习系统(如LLM和VLM),一旦达到足够大的数据和模型规模,就会展现出一种“组合性”——即能够将独立的知识单元组合成更复杂的理解。

一个例子是LLM能够在国际音标中,生成花生酱三明治的菜谱,尽管字典中只出现单个IPA单词。

这种组合性,并非通过强制设计特定模型结构而获得,而是在达到规模化,并拥有正确类型的自然数据分布时,“涌现”出来的特性。

685fd98975294ca7756077e59faa2d02.png

在机器人领域,额外的复杂性在于:简单地组合不同的动作,并不一定能实现全身的协调控制。这种组合性可能是规模化的新兴特性,也可能需要在多个抽象层次上进行推理。

对于“通用型”与“专业型”机器人之间,是否存在内在的矛盾,Levine也给出了不同于传统观念的答案。

他认为,这种张力不是必然存在的。

54a87824d82d0920b9a89d6c069cc3ef.png

语言模型的经验表明,通用模型,有时,在特定任务上的表现,甚至会超越,那些专门为该任务而优化的模型。

“拥有关于通用任务的强大先验知识,能使系统在专业任务中更具能力,”Levine说,“因为在物理世界中,总会出现需要通用能力来处理的异常情况。”

例如,机器人在折叠T恤时,如果意外抓到第二件衬衫,能够自主地将其放回原位——这需要一种通用常识认知。

a287da52f82d656ec86781d5e3787629.jpg

在更深层次的“动作、抽象层次与控制”问题上,Levine指出,尽管在感知、语言和推理方面取得了良好的泛化,但在“动作”方面仍然相对不稳定。

动作本身通常没有意义,它必须存在于情境之中。例如,汽车向左转,或机器人移动手臂,都取决于其所处的位置和环境。

e33143926477a9f05814a66fb00631b7.png

核心挑战在于“表征学习”(representation learning),即如何以一种能获得组合性的方式来表示技能。

另一个未完全解决的问题是,如何处理控制中出现的多个抽象层次——高层决策(如接下来一小时做什么)、中层决策(如够哪个物体)和低层决策(如如何驱动电机)。

Levine认为,目前尚不确定正确的做法是仅仅专注于低层控制,让抽象概念自然涌现;还是需要从其他来源引入抽象概念。

e3a4bb46250f7db2716a6d6373eb48b2.png

在“真实世界数据与世界模型”的辩论中,Levine一直主张使用真实世界的数据,因为从长远来看,一旦系统被部署,现实世界是数据最丰富的来源。

世界模型、生成模型或价值函数等都需要回答“反事实问题”:如果我做了与数据中看到的不同事情,会发生什么?

510bf5ace093fb42caaec423a4cc1898.png

他指出,依赖人类不完美的归纳偏差是有限的。当系统能力变得非常强大时,人类将难以充分理解世界并进行编程。因此,系统必须自己通过学习的方式学会它。一旦系统通过学习获得反事实能力,这便成为基于学习的控制中最核心、最深层的问题,也就可以直接用来进行机器人控制。

在“模仿学习与强化学习”的结合上,Levine不将其视为“钟摆”摇摆,而是认为它们必须协同工作。

92b9675fbcd2afacf23a69bc714fdbcb.png

强化学习(RL)非常擅长微调技能以达到高性能,但其最难的问题在于从零开始时的探索。而模仿学习(IL)或LLM带来的先验知识,能提供一个良好的起点,极大消除从零探索的问题,使RL变得真正有效。

“LLM必须足够大,才能足以启动一个RL过程。机器人领域以前的模型规模远远不够,而现在模型正在变得越来越大,也越来越能引导出一个有效的RL过程。”Levine说。

3799cb5376af8ab56ac0f9b72f484381.png

https://www.youtube.com/watch?v=0CfMCOzmJZI

爱力方的分析认为,Levine与Vanhoucke的这场深度对话,其意义已远超一次简单的学术交流。

它,更像是一份来自最前沿的、关于物理世界AI如何从“概念”走向“现实”的“生存法则”。

其核心启示是,通往通用机器人和L4级自动驾驶的道路,其核心,并非仅仅是某个单一算法的突破。

它,需要一套系统性的、能够将**“大规模部署(商业化) → 真实世界数据收集 → 模型自我改进(飞轮) → 语言先验知识注入 → 涌现的组合性 → 世界模型对反事实的理解 → IL/RL协同”**这所有环节,无缝整合在一起的、全栈式的“进化路径”。

Levine的创业公司Physical Intelligence,正身体力行地践行这一理念——他们正在进行“dogfooding”实验,让员工将机器人带回家进行衣物折叠任务,并让机器人在Dandelion咖啡店“实习”组装盒子。

这场关于物理世界AI的“十年长征”,才刚刚揭开其序幕。而Levine和Vanhoucke的对话,正是为我们,指明了那条,充满挑战,却又充满希望的“生存法则”。

以下为全文翻译:

开场与相遇

Sergey:规模会非常重要,你必须一步步逼近一个真实的、可实际部署的状态,这样训练数据就和测试时间匹配了,而这就是我们在机器学习里知道有效的配方。

Vans:AI 的下一步是什么?我是 Waymo 的杰出工程师 Vans Vanuk。这是一个新系列,我们将深入探讨 AI 的进展,以及它如何与像 Waymo 这样的自动驾驶车辆交汇,所以加入我们这段旅程,享受沿途所有“美味的目的地”。今天我要和 Sergey 喝咖啡,他是 UC Berkeley 的教授,研究 AI 如何让任何自主系统解决任何任务,现在也是创业者,Sergey 创立了机器人初创公司 Physical Intelligence。我很兴奋想听听他做了什么。好了,hello hello,谢谢你来,呃你想去喝咖啡吗?

Sergey:好,走吧。

初聊往事与尺度观点

Vans:好,你一直是 AI 和机器人交叉的先锋。事实上我想我们大概 10 年前见过。我可能没跟你说过,第一次听到你的名字,是有一天 Ilia Sutskever(当时在 Google Brain)拿着你的一篇论文在办公室里到处跑,说“这就是未来,方向就在这里。”他对你的工作极其兴奋。我想那是你在做 Guided Policy Search 的时候。那时你觉得自己走在正确方向上吗?

Sergey:他为此兴奋这点挺有意思,因为我觉得他的论点一直是规模对 AI 成功至关重要。而那项工作里有一些对的东西,也有一些我认为有点不对的。比如,系统只用 4 小时的机器人数据训练,只是在做很基础的事情,比如把彩色形状插进槽里之类的,所以更像是在测试“端到端操控学习是不是好配方”。但我觉得它不太对,是因为它没有在朝着那个可扩展的未来迈步,我认为那需要更多工作。实际上我从中得到的教训是,我应该更严肃对待那一点,然后我基本花了接下来的 10 年把它搞清楚。

十年轨迹与数据飞轮

Vans:那接下来的 10 年里,请你带我走一遍,你的科学轨迹是什么?

Sergey:在机器人学里,我想我一直相信,在某些方面机器人学并不比其他 AI 领域不同,规模会非常重要。但它有点独特,达到那个规模有它自己的挑战。你们有那么多车在路上跑,能得到大量数据,但对多数机器人领域不是那样。所以我们必须想办法达到那个规模:可以通过部署机器人,通过让机器人真的做事,让它们自己采集数据,让它们在规模上采集数据。这当中有很多非常有趣的科学问题。你必须跨过“激活能”,到达那个正确的水平,然后你必须创造一个持续的飞轮,让它不断变好。而你知道,你和我这些年也探索过很多迭代,包括一些错误的开始,一些好主意,一些不太好的。

Vans:是的,有一个论点是:一旦你知道,创造飞轮的最佳方式就是商业化,让某些东西在真实世界里运行,在实验室里很难做到。你现在就是这样吗?

Sergey:我认为是,而且我认为那里面有不同的层次。你可以在实验室里做实验;你可以在受控条件下做一些反映真实世界的事;所以有一点斜坡,不是垂直的悬崖。但我认为方向上就是必须越来越接近一个真正的、实用的部署,这样训练数据就匹配测试时间,这是我们在机器学习里知道有效的配方。

Vans:你确实做了这个跳跃,从伯克利的纯学术追求,到现在创办一家初创公司。那就是原因吗?为什么是现在?

Sergey:是的,我会说,从科学角度,对我来说现在非常清楚:机器人学习要进到下一个层次需要有那个规模。事实上,从科学角度在错误的尺度上研究事物是有风险的,因为我们知道有时图景会发生质变。所以,呃,我不是一个非常商业化的人,显然我会考虑这些事情,但对我来说更重要的是,为了技术进步,我认为它需要达到那一步,而这不仅仅是纯学术努力,它有点像阿波罗计划,需要真的去构建一些东西。

早期尝试与“常识”缺口

Vans:在试图做规模化机器人的 10 年里,有没有错误的开始?有没有让你改变想法、真正改变思维方式的事情?

Sergey:你我做过的那个 ARM Farm 对吧?我仍然认为那在某种程度上是个好主意,但我觉得缺了点什么。我们搭了所有这些机器人,让它们在很大程度上自主学习一个任务,在规模上可以说不错。我觉得缺少的可能是某种常识,不是在我们这边(也许我们也缺),而是机器人那边。因为我认为我们有一个让许多机器人集体学习的好配方,但它被限制在非常简单的行为上,因为我们没有一个引擎来提供粗略的常识解,作为更复杂任务的起点。

还有一件我在职业生涯早期非常确信的事情是,人和动物即便缺乏很强的语言能力,也能执行非常复杂的运动技能——比如,你知道,猴子比大多数机器人更能干。也许我们应该按它们进化的顺序来关注事情:你知道,感知、运动控制,然后再关心语言之类的。我想你一直更支持“好吧,我们先把语言这一块理顺”,而我最初认为那是个糟糕的主意,因为这个东西连基本的操作都不会,为什么要担心语言?

但我认为这里有非常微妙的一点:语言在今天的机器人里有很大价值,不一定因为它是语言,而是因为它是一种非常有效地捕获先验知识的方式。捕获先验知识就是让我们得到常识,让我们在从未做过的事上做粗略推断:比如,也许这辆车从未到过这个特定路口,但它可以大致判断“哦,那个东西在那边,那个东西在这边,这是我对世界如何运作的认识”,于是得到一个粗略的解。

泛化与组合性

Vans:让我们谈谈泛化吧,因为我觉得这是机器人里一个迷人的话题。总是存在很多张力:构建一个最好的单任务机器人,还是构建一个通用机器人。

Sergey:嗯。

Vans:首先,泛化这个问题我觉得总是很难界定,有很多解释方式:有多任务视角——一次解决很多任务;也可以看成零样本泛化到新任务;或者介于两者之间,比如快速适应新任务之类。你怎么思考泛化?

Sergey:现代机器学习系统(比如大语言模型、视语模型)最惊人的事情之一是,当它们在数据和模型规模上足够大时,会表现出一种组合性。我的一个学生编了一个挺有趣的例子:他让一个 LLM 用国际音标写一份花生酱果酱三明治的做法。国际音标就是你在词典里看到的,用来解释单词怎么发音的东西,酷的地方在于你在词典里只会看到单个单词,从来不会看到完整的文本,但一个 LLM 却可以弄明白如何写出一整段。所以它是一个简单的模式:你会发现“你可以用任何方式写单词”,一旦你理解了“如何组合单词”和“如何写单词是独立的”,你就可以把东西放在一起。

那就是组合泛化的一个例子,它是涌现的。人们尝试了很长时间,用某些带有特殊分解结构的模型去强迫它,但你强迫不了它。你在规模和正确的、自然的数据分布上会得到它。所以泛化的关键是得到那种组合性。

Vans:是的,在机器人里还有一个额外的复杂度:把不同的动作组合起来不一定会带你到全身控制。

Sergey:对,没错。

Vans:在那个组合图景里缺了什么?

Sergey:这是个非常好的问题。我确实不知道,意思是我不知道到底如何让这些东西正确发生。也许纯粹是达到足够规模的涌现,也许是它和在多个抽象层次上拥有正确推理的一种组合,所以某种高层推理能弄清楚发生了什么,然后给出正确的任务描述,让它被正确完成。

但我们确实开始在 Physical Intelligence 的一些工作中看到这点:对于那些我们确实有多样数据、还有结构类似的其他任务数据的任务,我们确实得到了一些涌现的组合性。我们有,比如,一个例子挺巧的:我们在做这些叠衬衫的任务,偶然有几次测试,机器人从箱子里抓出了多件衬衫,它开始折第一件,然后意识到第二件开始挡路,它就把第二件放回去。我们并没有为此设计,也没刻意让任何人采这种数据,但因为你来回移动物体,数据里遇到各种不同的情况,就会出现这种事情。

通用 vs 专用

Vans:除了组合性,经常还有一个张力:构建通用机器人,还是一个在某件事上非常非常非常擅长的机器人,能真正针对一个任务做到最优化。我一直在想,这是因为我们做得不对,还是说这两者总会有张力?

Sergey:我觉得实际上不是张力。所以,我认为我们可以从语言模型得出的教训是,有时通用型在专门任务里会胜过专门型。过去,人们会投入大量精力设计专门的机器翻译系统、摘要系统等等,但事实证明,对于一般任务有非常强的先验,最终能让你在那些专门任务上更有能力。我认为我们会在机器人里看到这一点,这很有道理,因为即便你有一个非常具体的工作,你应该在物理世界里把它做得很好,也总会有例外、怪事发生。如果你拥有通用能力,那么你实际上会有处理那些例外所需的动作库,比如那件 T 恤的例子:如果你拿了两件,就要把其中一件放回去。所以我认为这最终并不是张力,只是看起来有,因为我们还没完全理顺一切。

咖啡店插曲与现实部署

Vans:我们要去一家叫 Dandelion 的咖啡店,你去过吗?

Sergey:我去过,而且我常去。

Vans:哦,是的,我们的机器人有时也去。多讲讲。

Sergey:所以我们一直在做这个组装盒子的任务,我们实际上用的就是 Dandelion 的盒子,所以我们的一些机器人实际上在那里“实习”,这么说吧。

Vans:好,也许我们会看到一些。

Sergey:是的,它们在实习。我们在感知上的泛化掌握得不错:基于你知道的一些例子理解世界,这是数据密集的,但我们可以在真实世界里做到感知上的泛化;我们在语言、推理和理解上有很好的泛化。

Vans:嗯,在行动方面呢?

Sergey:是的,那方面一直更脆弱。

Vans:是的,是的,你同意吗?你觉得这是我们目前所处状态的一个特征,还是说我们需要找出别的东西?

Sergey:这很棘手,因为动作本身往往并不真正意味着什么。对汽车来说,左转右转脱离它所在的位置没有意义;对机器人来说,手臂这样或那样移动,离开它所处的环境也没有意义。

也许真正的关键在于表征学习:以一种能得到组合性的方式表征技能。我认为这里有个有趣的问题还没完全回答,但我认为科学界正在解答,那就是如何处理控制时出现的多个抽象层次——意思是,有高层决策(比如接下来一小时你应该做什么),有中层决策(你应该去够哪个物体),有低层决策(你实际如何驱动你的电机来完成那个任务)。我认为目前还不确定,正确的做法是全部都在低层去做,让抽象自己涌现,还是需要从其他来源(比如仪器规模的预训练)引入抽象。这几乎是在实时被解决的一件事。

真实世界 vs 世界模型

Vans:另一件你一直倡导的事是真实世界的机器人,而不是过度依赖仿真。现在有一波新的仿真浪潮,就是世界模型,很多人对为普遍的自治构建世界模型非常兴奋,这在自动驾驶里很普遍,在机器人里也越来越多。你觉得那在整个技术图景里处于什么位置?

Sergey:是的,我一直热衷于使用真实世界数据的部分原因是,我认为实际上从长远来看,在那种渐近情形里,那是我们将拥有的最充足的数据源。因为一旦我们有系统真正部署、真的在那里,在真实世界里(正如这里),你能从中得到的数据量其实是巨大的。

所以不是说那是唯一应该用的数据源,但弄清楚如何使用从长远来看最充足的数据,似乎是最重要的事情之一。

但关于世界模型,我认为这里确实有一些微妙之处,那就是最终更深层的技术挑战,对世界模型、生成模型、价值函数来说实际上非常相似——这些东西都需要回答反事实问题,比如:如果我做了与我在数据里看到的不同的事情,会发生什么?

有统计的方法来处理:找出更擅长回答反事实问题的算法;也有归纳偏置的方法:设计你的模拟器,把你的答案烘焙进去。它们都有各自的挑战,因为如果你自己烘焙归纳偏置,它就受限于你人类不完美的知识,这在你的系统平平时还算可以,因为哪怕一点点知识都会有很大作用;但一旦你的系统变得非常好,你就很难对世界有足够全面的理解,能直接把它编进去,那么你就必须去学习。

一旦你去学习,现在你就需要解决机器学习中的那个“终极问题”——用一个学习到的模型回答反事实问题,而这在某种意义上就是基于学习的控制里最核心、最深的难题。

模仿学习 vs 强化学习

Vans:另一个一直存在的张力是模仿学习与强化学习之间的张力。

Sergey:是的。

Vans:而且在过去 10 年里,这两者之间有很多乒乓:有时候 RL 占主导;有时候——你和我 Waymo 的同事有一篇论文标题叫《Imitation Is Not Enough》,如果我没记错的话。现在感觉钟摆停在某个中间点。你觉得会一直这样吗?模仿学习和强化学习会继续共同发挥作用吗?

Sergey:是的,我实际上不把它看成钟摆。嗯,我认为看起来像那样,如果你看发表的论文和使用的技术,但我认为实际上真正发生的是,要让强化学习运行良好,它需要一个非常好的起点。强化学习非常擅长把一个技能微调到非常高的性能,但强化学习里最难的问题总是:当你从零开始时,你如何探索、弄清楚如何做事情。而人类实际上并不擅长这个——比如,如果有人真的对如何操作一件特定的机器一无所知,必须完全从头开始靠试错弄清楚,那非常难。这就是我们教人、上学、教育的原因。

所以实际上,最好的方法是尽可能消除那部分探索问题,这意味着有一个好的起点。从某种意义上,我们在过去几年看到的使用视-语-动模型之类的转变,本质上就是来自那里:机器学习社区已经弄清楚了如何将网络上的先验知识蒸馏到这些大模型里,而先验知识会让强化学习真正有效。所以挑战是如何把那些知识放进强化学习系统里,我认为你真的需要两者。再说一次,在语言模型领域,现在的共识就是,你从一个大规模预训练模型开始,那主要是监督学习,然后你使用 RL 让它实际做你想要的事,并且做好。

Vans:让我着迷的是,多年来那种启动实际上并不起作用。我们很难把一个模仿学习模型变成强化学习的良好启动。你觉得发生了什么变化?

Sergey:我认为很多变化其实就是起点有多好,这是我们以前可能没有完全认识到的。再用 LLM 的例子:现在的惯常认识是,语言模型必须足够大,才能足以启动一个 RL 过程。如果你以此为背景来看之前机器人是怎么做的,很明显那时根本没到那个规模。所以我认为这可能是关键:不是你需要一点点先验,而是你实际上需要大量先验。

Vans:你谈到了视-语-动模型,这是现在很多机器人学习的主食。你觉得自动驾驶行业可以从这种方法里学到什么?

Sergey:我认为对我来说一个收获是,我们可以从常识的角度来看待边缘案例,而常识基本上必须来自其他地方。因为如果你真的想处理一个你从未遇到过的情况,你得把它映射到你遇到过的其他东西上。用视-语-动模型可以做的一件事,就是尝试将先验知识转移到特定的问题上,靠纯粹的泛化,或显式地做 chain-of-thought。我认为这可能是处理不熟悉情况的一个非常非常强大的工具。所以我认为对自动驾驶的启示可能是,对于那些你必须停下来思考的真正困难的案例,这可能是一个用来做这件事的工具。

尾声与咖啡

Vans:好,最后一个问题:下午你怎么喝咖啡?

Sergey:可能是 espresso。我们开始对洗衣折叠做“狗粮”测试,所以一些员工实际上把机器人带回家了。有人把衣服在烘干机里放了很长时间,它们会变得有点硬,是的,而这就足以改变布料的性质,让机器人开始吃力,因为我们从来没有硬的衣服。

Vans:是,是,我有个直觉,把一个视频模型拿来,往上粘动作数据,再用动作数据做后训练,这行不通。必须把它放进预训练里。

Sergey:是的,是的,没错。否则你会得到一个机器人,它“魔术般地”成功完成任务,却完全不合逻辑——你让它捡薯片,它会伸向错误的东西,然后突然像变戏法一样手转过来,手里有薯片,你得到一个“胡迪尼机器人”。

Vans:是,是。还有一件事让我在从机器人转到自动驾驶时很惊讶:相比机器人,DAgger 问题在这里更核心。它只在你已经非常好、需要完美时才会显现,我觉得那时它真的会成为一件大事。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯