MIT与UC伯克利团队研发LVP模型 机器人一瞥即可完成新任务

MIT与UC伯克利团队研发LVP模型 机器人一瞥即可完成新任务

2026年01月15日 11:14
本文共计2768个字,预计阅读时长10分钟。
来源/具身研习社 责编/爱力方

作者:李鑫   出品:具身智能大讲堂

想象一下,对着机器人说“打开这个从没见过的门”,它不需要提前训练专门的开门程序,而是先在“脑海”里生成一段人类开门的视频,再跟着视频里的动作逻辑,精准完成扭把手、推门的全过程。这不是科幻场景,而是MIT、UC伯克利、哈佛联合团队研发的Large Video Planner(LVP)模型实现的真实能力。

这款模型跳出了传统机器人依赖特定动作数据训练的框架,把视频当成机器人学习的核心素材。要知道,之前主流的视觉-语言-动作(VLA)模型,一直受困于机器人动作数据稀缺的问题,图文数据里的知识很难直接转化成物理世界的操作逻辑,导致机器人遇到没学过的任务就“手足无措”。而视频不一样,它天然包含了时空连续的动作信息,人类怎么拿东西、怎么操作工具,都能通过视频完整呈现,而且互联网上的视频资源无穷无尽,刚好解决了数据短缺的痛点。

1►视频生成模型 让“想象”的动作符合物理规律

LVP的厉害之处,在于搭建了一套从“看视频学动作”到“实际执行”的全流程系统,每一步都针对性解决了机器人学习的关键问题。

LVP的核心是一个140亿参数的视频生成模型,它不只是简单生成画面,而是要产出能指导机器人操作的“动作蓝图”。为了让生成的视频既符合指令要求,又不违背物理常识,团队用了两个关键技术:

一是扩散强制Transformer(Diffusion Forcing Transformer)。传统视频生成模型给所有画面加统一的噪声,容易导致动作不连贯。而这个技术给视频的历史帧和未来帧分别加不同的噪声,让模型既能根据单张初始图片生成完整视频,也能顺着已有的视频片段继续扩展,轻松应对多步骤任务,比如先拿书再叠放的连贯动作。

二是历史引导(History Guidance)。就像人做事会参考之前的动作,这个技术让模型生成新画面时,时刻对齐初始场景和已生成的动作,避免出现“手突然穿过物体”这种不符合物理规律的情况。再结合文本引导,确保视频严格跟着任务指令走,比如让它“撕胶带”,就不会生成“剪胶带”的动作。

LVP模型概述

模型训练分了两步:先用140万条视频数据预训练60k步,让模型学会理解动作和指令;再专门用低晃动的视频微调10k步,减少画面抖动,让机器人执行时动作更平滑。整个过程用了128块H100 GPU,花了约14天才完成。

2►LVP-1M数据集 140万条视频的“动作教科书”

好模型离不开好数据,团队特意打造了LVP-1M数据集,里面的140万条视频都是精挑细选的“动作教学素材”。这些视频来源很广,既有机器人操作的专业数据,比如不同类型的机械臂怎么抓取物体;也有人类的日常活动视频,像第一人称视角的做饭、修理;还有从互联网上筛选的手部动作片段,确保数据足够多样。

数据集来源与采样策略说明

为了让这些视频适合机器人学习,团队做了不少“加工”:把不同长度、不同帧率的视频统一调成3秒、16帧/秒,保证动作速度和人类一致;去掉画面模糊、相机晃动厉害的片段,只留清晰的动作;还用Gemini模型给每个视频补了2-5条详细的动作描述,比如把简单的“拾取”扩展成“用拇指和食指捏住杯子把手并抬起”,让模型更清楚动作细节。

3►动作提取 把人类动作“翻译”成机器人指令

生成视频只是第一步,关键是让机器人“看懂”视频里的动作,转化成自己能执行的控制信号。这个过程分三步走:

从视频到动作的流程

首先用HaMeR模型识别视频里每帧的手部三维姿态,再用MegaSAM模型修正这些姿态,解决单帧识别容易出现的位置漂移问题,让动作轨迹更平滑。然后通过Dex-Retargeting技术,把人类手指的动作映射成机器人关节的角度,不管是多手指的灵巧手,还是简单的平行夹爪都能适配。最后把这些关节角度和手腕轨迹,转换成机器人坐标系下的控制信号,通过逆运动学求解,让机械臂和手部协调运动。

比如视频里人类用手掀开罐子盖子,模型会先识别出手的开合角度、手腕转动方向,再把这些动作转换成机器人手指的张合程度、手臂的移动轨迹,最终让机器人精准复刻这个动作。

4►实测表现 零样本搞定200个陌生任务

为了验证LVP的泛化能力,团队做了两类严苛测试,结果都远超同类模型。

第一类是第三方陌生任务测试。团队邀请普通人从日常生活中提任务,最终筛选出100个高质量测试案例,既有“在加油站操作油枪”这种特殊场景,也有“冲马桶”“撕胶带”这种需要精细动作的任务,全都是模型没学过的。

LVP-1M数据集筛选后的来源与属性

测试用四级标准打分:从“是否碰到正确物体”到“是否完整完成任务”,再到“动作是否符合物理规律”。结果显示,LVP在“完整完成任务”这一项的成功率达到59.3%,而其他主流视频生成模型最高只有35%。比如让它“打开烤箱门”,LVP生成的视频里,手会先抓住门把手,再向外拉,动作连贯且合理,而其他模型可能出现手没碰到把手就“隔空开门”的情况。

f1942d6b1e20bca14179bd9cf8318def.png

第二类是真实机器人实验。团队用了两种不同的机器人:一种是带平行夹爪的Franka机械臂,另一种是带灵巧手的Unitree G1机械臂,测试了拾取、按压、开门、舀豆子等多种任务,还包括从没见过的物体和场景。

1561bd43567ebceba0efb205dc520a28.png

基于LVP的零样本机器人操作

结果显示,LVP的表现全面超越传统VLA模型。比如用平行夹爪拾取物体,LVP成功率50%,而其他模型最高只有30%;用灵巧手擦桌子,成功率达到80%,还能完成“撕透明胶带”这种精细操作。要知道,这些任务都没有专门训练过,完全是模型靠学来的通用动作逻辑“举一反三”。

5►结语与未来:

当然,LVP也不是完美的。目前生成一段视频计划要好几分钟,没法满足机器人实时响应的需求;而且动作提取依赖开源模型,偶尔会出现识别误差,导致执行失败;对于平行夹爪这种自由度少的机械臂,把人类五根手指的动作转化过去,也还有优化空间。

不过这些问题都有解决方向,比如通过蒸馏技术减少模型推理步骤,提升生成速度;优化动作提取算法,提高识别精度。更重要的是,LVP开辟了一条新的机器人学习路径——不用再依赖稀缺的机器人动作数据,而是利用海量的视频资源,让机器人像人一样“看视频学本事”。

目前团队已经开源了模型、数据集和训练代码,相信会有更多研究者基于这个框架继续优化。未来,随着技术完善,可能会出现能应对各种复杂场景的通用机器人:在家里,它能看懂你做饭的视频,帮你切菜、摆盘;在工厂,它能学习不同设备的操作视频,快速适配新的生产任务。LVP的出现,无疑让通用机器人的落地又近了一步。

论文地址:https://arxiv.org/pdf/2512.15840

项目地址:https://www.boyuan.space/large-video-planner/

来源:重磅!MIT、UC伯克利团队开发LVP模型,机器人看一眼就能搞定陌生任务 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯