智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒

智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒

爱力方

爱力方

2025年12月04日 11:29
本文共计2005个字,预计阅读时长7分钟。
来源/互联网 责编/爱力方

人工智能(AI)的这场、日益追求“更逼真、更流畅、更长”的“军备竞赛”中,一场更为深刻的、关乎“理解”本质的革命,正由中国的顶尖科研机构——北京智源人工智能研究院——悍然发动。

12月4日,该研究院,正式发布了其新一代的多模态大模型——Emu 3.5

Emu3.5 - 智源研究院推出的多模态世界大模型| AI工具集

这并非又一次,在某个单一模态(图像、视频或文本)上的性能刷新。

它,是一次深刻的、系统性的、旨在将所有这些,原本各自为战的模态,进行“世界级统一建模”范式革命。

其目标,是让AI,从过去那个,只会“画画”、“写文”的、表面的“模仿者”,历史性地,进化为一个,真正能够“理解”我们这个物理世界,最底层的运行规则的“思考者”。

这场革命的起点,源于对传统AI,那个最根本的、也是最致命的“阿喀琉斯之踵”的清醒认知:

它们,不懂物理,不懂因果。

过去,几乎所有最顶尖的图像生成模型,虽然,其画出的画面,已足够逼真,但它们,却严重地,缺乏对真实世界,最基本规律的、哪怕是一丝一毫的理解:

  • 一个物体,不会,无缘无故地,在空中漂浮。

  • 重力、碰撞、摩擦力、以及运动的轨迹,对它们而言,完全,是一个无法被理解的“黑箱”。

即便,是那些,最强大的视频生成模型,也常常会,在其生成的视频中,出现人物动作的突然变异、物体运动的逻辑断裂等,令人出戏的“灵异现象”。

其根本原因,只有一个:它们,所学习的,仅仅是,像素在二维平面上的、表面的、统计学上的“关联性”;而并非,是驱动这些像素变化的、三维世界中,那些深刻的、内在的“因果性”。

刚刚,智源悟界·Emu3.5重塑世界模型格局,原生具备世界建模能力

而Emu 3.5的核心突破,正在于,它,以一种极其简洁、却又极其深刻的方式,彻底地,颠覆了这一局面。

智源的研究团队,史无前例地,将图像、文本、视频,这所有不同的信息模态,都统一地,编码为了,同一种Token序列

然后,他们,让这个庞大的模型,只去学习一个,最纯粹的、也可能是最接近“世界本质”的终极任务——NSP(Next State Prediction,即,预测下一个世界状态)。

简单来说,其工作逻辑是:

  • 无论是,输入一张静态的图片、一句描述性的文字,还是一段动态的视频帧,在Emu 3.5的“眼中”,它们,都只是“世界当前状态”的、一种不同形式的表达而已。

  • 而模型的任务,永远,只有一个:去预测,在接收到这个“当前状态”之后,“世界的下一秒,将会变成什么样子”

而这个“下一秒”,其形态,是完全开放的:

  • 如果,这个“下一秒”,是一段文字——那么,模型,就自动地,完成了对白的续写

  • 如果,这个“下一-秒”,是一段画面——那么,模型,就自动地,生成了符合物理规律的、合理的动作

  • 而如果,这个“下一秒”,同时地,包含了视觉和语言的变化——那么,模型,就成功地,推演出了一段,完整的、包含了因果逻辑的世界演化

这种,将所有不同的信息模态,都彻底地,打散和重组为,同一套“世界积木”(统一的Token序列)的技术,是Emu 3.5,最大的、也是最具革命性的亮点。

它,不再,去区分,“这是一张图片”、“这是一句话”,还是“这是一段视频的一帧”。

在它的世界里,万物,皆为Token。

通过,在海量的、包含了真实世界演化规律的数据上,进行艰苦的训练,模型,第一次,真正地,学会了那些,跨越了不同模态的、底层的因果关系物理常识

爱力方的分析认为,Emu 3.5的发布,其意义,已远超一次单纯的技术突破。

它,是一个清晰的、毫不含糊的“里程碑”。

它,标志着,全球的多模态大模型竞赛,正在从过去那个,以“生成”为核心的1.0时代,正式地,迈向一个,以“世界模型”为核心的2.0时代

业内专家评价道,在未来,基于Emu 3.5这样的“世界模型”,我们,不仅能够,去生成更自然、更长、也更具逻辑性的视频,或者,进行更智能、更符合物理规律的交互式图像编辑。

我们,更可能,将其,直接地,应用于那些,对“物理世界理解”能力,有着最刚性需求的、更高阶的、也更具价值的场景之中。

例如,机器人具身智能自动驾驶的仿真与决策、乃至,对真实世界(如天气、金融市场)的、高精度的预测。

当全球所有的大厂,都还在,疯狂地,内卷于模型的参数规模、生成的分辨率,和视频的时长时,北京智源,则以一种“四两拨千斤”的方式,直接地,将问题的本质,拉回到了那个,最根本的、也最致命的起点之上:

“你的AI,到底,有没有,真正地,理解这个世界?”

Emu 3.5,用其最简洁的“预测下一个Token”的统一范式,却实现了,一次最深刻的、从“画得像”,到**“变得对”**的、质的能力跃迁。

这一次,中国的科研团队,再一次,用其原创的、深刻的、第一性原理式的思考,为全球AI的下一个十年,指明了一个全新的、也可能是更正确的方向。

一个真正的、属于“世界模型”的时代,已然,到来。

官网地址:https://zh.emu.world/pages/web/landingPage

体验地址:https://zh.emu.world/pages/web/login

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯