智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒-A³·爱力方

在人工智能（AI）的这场、日益追求“更逼真、更流畅、更长”的“军备竞赛”中，一场更为深刻的、关乎“理解”本质的革命，正由中国的顶尖科研机构——北京智源人工智能研究院——悍然发动。

12月4日，该研究院，正式发布了其新一代的多模态大模型——Emu 3.5。

这并非又一次，在某个单一模态（图像、视频或文本）上的性能刷新。

它，是一次深刻的、系统性的、旨在将所有这些，原本各自为战的模态，进行“世界级统一建模”的范式革命。

其目标，是让AI，从过去那个，只会“画画”、“写文”的、表面的“模仿者”，历史性地，进化为一个，真正能够“理解”我们这个物理世界，最底层的运行规则的“思考者”。

这场革命的起点，源于对传统AI，那个最根本的、也是最致命的“阿喀琉斯之踵”的清醒认知：

它们，不懂物理，不懂因果。

过去，几乎所有最顶尖的图像生成模型，虽然，其画出的画面，已足够逼真，但它们，却严重地，缺乏对真实世界，最基本规律的、哪怕是一丝一毫的理解：

一个物体，不会，无缘无故地，在空中漂浮。
重力、碰撞、摩擦力、以及运动的轨迹，对它们而言，完全，是一个无法被理解的“黑箱”。

即便，是那些，最强大的视频生成模型，也常常会，在其生成的视频中，出现人物动作的突然变异、物体运动的逻辑断裂等，令人出戏的“灵异现象”。

其根本原因，只有一个：它们，所学习的，仅仅是，像素在二维平面上的、表面的、统计学上的“关联性”；而并非，是驱动这些像素变化的、三维世界中，那些深刻的、内在的“因果性”。

而Emu 3.5的核心突破，正在于，它，以一种极其简洁、却又极其深刻的方式，彻底地，颠覆了这一局面。

智源的研究团队，史无前例地，将图像、文本、视频，这所有不同的信息模态，都统一地，编码为了，同一种Token序列。

然后，他们，让这个庞大的模型，只去学习一个，最纯粹的、也可能是最接近“世界本质”的终极任务——NSP（Next State Prediction，即，预测下一个世界状态）。

简单来说，其工作逻辑是：

无论是，输入一张静态的图片、一句描述性的文字，还是一段动态的视频帧，在Emu 3.5的“眼中”，它们，都只是“世界当前状态”的、一种不同形式的表达而已。
而模型的任务，永远，只有一个：去预测，在接收到这个“当前状态”之后，“世界的下一秒，将会变成什么样子”。

而这个“下一秒”，其形态，是完全开放的：

如果，这个“下一秒”，是一段文字——那么，模型，就自动地，完成了对白的续写。
如果，这个“下一-秒”，是一段画面——那么，模型，就自动地，生成了符合物理规律的、合理的动作。
而如果，这个“下一秒”，同时地，包含了视觉和语言的变化——那么，模型，就成功地，推演出了一段，完整的、包含了因果逻辑的世界演化。

这种，将所有不同的信息模态，都彻底地，打散和重组为，同一套“世界积木”（统一的Token序列）的技术，是Emu 3.5，最大的、也是最具革命性的亮点。

它，不再，去区分，“这是一张图片”、“这是一句话”，还是“这是一段视频的一帧”。

在它的世界里，万物，皆为Token。

通过，在海量的、包含了真实世界演化规律的数据上，进行艰苦的训练，模型，第一次，真正地，学会了那些，跨越了不同模态的、底层的因果关系和物理常识。

爱力方的分析认为，Emu 3.5的发布，其意义，已远超一次单纯的技术突破。

它，是一个清晰的、毫不含糊的“里程碑”。

它，标志着，全球的多模态大模型竞赛，正在从过去那个，以“生成”为核心的1.0时代，正式地，迈向一个，以“世界模型”为核心的2.0时代。

业内专家评价道，在未来，基于Emu 3.5这样的“世界模型”，我们，不仅能够，去生成更自然、更长、也更具逻辑性的视频，或者，进行更智能、更符合物理规律的交互式图像编辑。

我们，更可能，将其，直接地，应用于那些，对“物理世界理解”能力，有着最刚性需求的、更高阶的、也更具价值的场景之中。

例如，机器人的具身智能、自动驾驶的仿真与决策、乃至，对真实世界（如天气、金融市场）的、高精度的预测。

当全球所有的大厂，都还在，疯狂地，内卷于模型的参数规模、生成的分辨率，和视频的时长时，北京智源，则以一种“四两拨千斤”的方式，直接地，将问题的本质，拉回到了那个，最根本的、也最致命的起点之上：

“你的AI，到底，有没有，真正地，理解这个世界？”

Emu 3.5，用其最简洁的“预测下一个Token”的统一范式，却实现了，一次最深刻的、从“画得像”，到**“变得对”**的、质的能力跃迁。

这一次，中国的科研团队，再一次，用其原创的、深刻的、第一性原理式的思考，为全球AI的下一个十年，指明了一个全新的、也可能是更正确的方向。

一个真正的、属于“世界模型”的时代，已然，到来。

官网地址：https://zh.emu.world/pages/web/landingPage

体验地址：https://zh.emu.world/pages/web/login

通知

尊敬的用户

user

智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒

爱力方

相关图文

中国移动发布消费级四足机器人灵犀主打家庭服务与拟人化交互

WordPress推出AI开发工具Telex 已投入实际应用

AI模型揪出智能合约漏洞模拟攻击损失460万美元

小米AI战略揭晓：卢伟冰押注AI与物理世界融合，罗福莉领衔MiMo大模型

特朗普政府在推动AI后转向机器人

美股机器人板块普涨美国政府已策划布局

热门资讯

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

从跑酷到叠衣：机器人行业为何集体放弃“炫技”？

2.2亿用户，115亿美元血亏：OpenAI的“万亿帝国”，是梦想还是泡沫？

Pokee AI：核心技术与生态资源驱动的AI Agent平民化浪潮

从六轴到七轴，不止多一轴：松灵NERO发布，开启机器人精细操作新篇章

快讯

消费者购车洽谈遭录音奥迪门店称厂家要求折射经销商返利考核压力

2026年大模型GEO优化服务商标杆企业推荐精选

马云谈AI时代胜负关键：不在芯片在心跳阿里核心高管齐聚云谷论教育

2026年GEO优化服务商Top3推荐：商家AI搜索流量布局指南

中国AI产品创新提速美图RoboNeo登顶巴西App Store分类榜

全国人大代表吴丰礼：建议试点粤港澳大湾区AI制度创新，夯实具身智能工业数据基建

头部酒企新春首课聚焦AI：不转型就出局

千问持续投入AI办事春节完成2亿笔真实订单

追觅科技在浙江新设智能科技公司，注册资本2000万元

霍尔木兹海峡受阻丰田被迫减产4万辆汽车

推荐专栏

爱力方

机器人大讲堂

下一篇