在人工智能(AI)的这场、日益追求“更逼真、更流畅、更长”的“军备竞赛”中,一场更为深刻的、关乎“理解”本质的革命,正由中国的顶尖科研机构——北京智源人工智能研究院——悍然发动。
12月4日,该研究院,正式发布了其新一代的多模态大模型——Emu 3.5。

这并非又一次,在某个单一模态(图像、视频或文本)上的性能刷新。
它,是一次深刻的、系统性的、旨在将所有这些,原本各自为战的模态,进行“世界级统一建模”的范式革命。
其目标,是让AI,从过去那个,只会“画画”、“写文”的、表面的“模仿者”,历史性地,进化为一个,真正能够“理解”我们这个物理世界,最底层的运行规则的“思考者”。
这场革命的起点,源于对传统AI,那个最根本的、也是最致命的“阿喀琉斯之踵”的清醒认知:
它们,不懂物理,不懂因果。
过去,几乎所有最顶尖的图像生成模型,虽然,其画出的画面,已足够逼真,但它们,却严重地,缺乏对真实世界,最基本规律的、哪怕是一丝一毫的理解:
-
一个物体,不会,无缘无故地,在空中漂浮。
-
重力、碰撞、摩擦力、以及运动的轨迹,对它们而言,完全,是一个无法被理解的“黑箱”。
即便,是那些,最强大的视频生成模型,也常常会,在其生成的视频中,出现人物动作的突然变异、物体运动的逻辑断裂等,令人出戏的“灵异现象”。
其根本原因,只有一个:它们,所学习的,仅仅是,像素在二维平面上的、表面的、统计学上的“关联性”;而并非,是驱动这些像素变化的、三维世界中,那些深刻的、内在的“因果性”。

而Emu 3.5的核心突破,正在于,它,以一种极其简洁、却又极其深刻的方式,彻底地,颠覆了这一局面。
智源的研究团队,史无前例地,将图像、文本、视频,这所有不同的信息模态,都统一地,编码为了,同一种Token序列。
然后,他们,让这个庞大的模型,只去学习一个,最纯粹的、也可能是最接近“世界本质”的终极任务——NSP(Next State Prediction,即,预测下一个世界状态)。
简单来说,其工作逻辑是:
-
无论是,输入一张静态的图片、一句描述性的文字,还是一段动态的视频帧,在Emu 3.5的“眼中”,它们,都只是“世界当前状态”的、一种不同形式的表达而已。
-
而模型的任务,永远,只有一个:去预测,在接收到这个“当前状态”之后,“世界的下一秒,将会变成什么样子”。
而这个“下一秒”,其形态,是完全开放的:
-
如果,这个“下一秒”,是一段文字——那么,模型,就自动地,完成了对白的续写。
-
如果,这个“下一-秒”,是一段画面——那么,模型,就自动地,生成了符合物理规律的、合理的动作。
-
而如果,这个“下一秒”,同时地,包含了视觉和语言的变化——那么,模型,就成功地,推演出了一段,完整的、包含了因果逻辑的世界演化。
这种,将所有不同的信息模态,都彻底地,打散和重组为,同一套“世界积木”(统一的Token序列)的技术,是Emu 3.5,最大的、也是最具革命性的亮点。
它,不再,去区分,“这是一张图片”、“这是一句话”,还是“这是一段视频的一帧”。
在它的世界里,万物,皆为Token。
通过,在海量的、包含了真实世界演化规律的数据上,进行艰苦的训练,模型,第一次,真正地,学会了那些,跨越了不同模态的、底层的因果关系和物理常识。
爱力方的分析认为,Emu 3.5的发布,其意义,已远超一次单纯的技术突破。
它,是一个清晰的、毫不含糊的“里程碑”。
它,标志着,全球的多模态大模型竞赛,正在从过去那个,以“生成”为核心的1.0时代,正式地,迈向一个,以“世界模型”为核心的2.0时代。
业内专家评价道,在未来,基于Emu 3.5这样的“世界模型”,我们,不仅能够,去生成更自然、更长、也更具逻辑性的视频,或者,进行更智能、更符合物理规律的交互式图像编辑。
我们,更可能,将其,直接地,应用于那些,对“物理世界理解”能力,有着最刚性需求的、更高阶的、也更具价值的场景之中。
例如,机器人的具身智能、自动驾驶的仿真与决策、乃至,对真实世界(如天气、金融市场)的、高精度的预测。
当全球所有的大厂,都还在,疯狂地,内卷于模型的参数规模、生成的分辨率,和视频的时长时,北京智源,则以一种“四两拨千斤”的方式,直接地,将问题的本质,拉回到了那个,最根本的、也最致命的起点之上:
“你的AI,到底,有没有,真正地,理解这个世界?”
Emu 3.5,用其最简洁的“预测下一个Token”的统一范式,却实现了,一次最深刻的、从“画得像”,到**“变得对”**的、质的能力跃迁。
这一次,中国的科研团队,再一次,用其原创的、深刻的、第一性原理式的思考,为全球AI的下一个十年,指明了一个全新的、也可能是更正确的方向。
一个真正的、属于“世界模型”的时代,已然,到来。
官网地址:https://zh.emu.world/pages/web/landingPage
体验地址:https://zh.emu.world/pages/web/login