AI视频的“第三条道路”:当苹果STARFlow-V,用“归一化流”,向Sora与Veo,发起“非对称”攻击

AI视频的“第三条道路”:当苹果STARFlow-V,用“归一化流”,向Sora与Veo,发起“非对称”攻击

爱力方

爱力方

2025年12月08日 11:27
本文共计1944个字,预计阅读时长7分钟。
来源/互联网 责编/爱力方

在AI视频生成的这场、几乎已被“扩散模型”(Diffusion Model)所一统天下的全球“军备竞赛”中,一场更为静默、却可能更具颠覆性的“技术叛乱”,正由那个,一直以来,在AI领域,都显得异常低调的“隐形巨人”——苹果公司——悍然发动。

该公司,近日,正式发布并宣布全面开源其全新的视频生成模型——STARFlow-V

QQ20251208-102821.png

这,并非又一次,在“扩散模型”的框架之内,进行的渐进式改良。

它,是一次深刻的、系统性的、旨在从根本上,绕开“扩散模型”固有缺陷的“范式革命”。

其核心,是采用了一种,在视频生成领域,从未被成功地,大规模应用过的、全新的技术路线——“归一化流”(Normalizing Flow)

这场“技术叛乱”的起点,源于对“扩散模型”那个,最根本的、也是最致命的“阿喀琉斯之踵”的清醒认知:

错误,会在时间的维度上,不断地,累积。

“扩散模型”,其工作的原理,是通过多步的、迭代式的“去噪”,来从一团随机的噪声中,“雕刻”出最终的视频画面。

这种“逐步求精”的模式,虽然,能够生成出惊人逼真的单帧画面。但当需要生成一段长达数十秒、甚至数分钟的视频时,其在每一帧上,所产生的、那些微小的、几乎不可避免的误差,便会像滚雪球一样,在时间的维度上,被不断地,放大和累积。

其最终的结果,便是我们,在许多AI生成的长视频中所看到的、那种,随着时间的推移,画面会不可避免地,变得越来越模糊、色彩越来越失真、乃至物体的形态,会发生“灵异”般的突变的“熵增”现象。

而苹果的STARFlow-V,所采用的“归一化流”技术,则试图,从根本上,去规避这一“错误累积”的宿命。

它,不再,去进行多步的、迭代式的“去噪”。

它,试图,去直接地,学习和建立,从“一团简单的、随机的噪声”,到“一段复杂的、真实的视频数据”之间,那个完整的、端到端的、数学上的“可逆变换”

这种,在底层技术范式上的根本性差异,为其,带来了三大显著的、理论上的优势:

  1. 训练效率的提升: 其训练过程,只需“一次性”地,去学习这个完整的变换,而无需,像扩散模型那样,去进行多次的、小步的迭代。

  2. 生成速度的飞跃: 一旦训练完成,它,便可以“一步到位”地,从随机噪声中,直接生成出最终的视频,而无需,再进行任何耗时的迭代计算。

  3. 错误累积的减少: 由于其“一步到位”的生成方式,理论上,它,可以极大地,减少在逐步生成过程中,所常见的误差累积问题。

苹果官方表示,通过并行处理和对先前帧数据的重用,其生成一段5秒钟视频的速度,相比于其最初的原型版本,已经提升了约15倍

然而,在这场充满了“理论优越性”的“技术叛乱”背后,其在当前阶段,所面临的“现实骨感”,也同样,不容忽视。

在权威的VBench基准测试中,STARFlow-V,获得了79.7分。

QQ20251208-102831.png

这个分数,虽然,已经明显地,优于其他所有,同样,采用“自回归”(Autoregressive)思路的模型。

但它,与那些,最顶级的“扩散模型”——例如,谷歌的Veo 3(85.06分)和腾讯的HunyuanVideo(83.24分)——之间,依然,存在着清晰的、可被量化的性能差距。

更重要的是,该模型,在对“物理世界规律”的理解上,存在着明显的、甚至可以说是“致命”的缺陷。

在其官方,坦诚地,展示出的失败案例中,出现了诸如“一只章鱼,毫发无损地,直接穿过了一块坚硬的玻璃”,以及“一块石头,在没有任何外力的情况下,凭空地,出现在画面中”这类,完全违背物理常识的“灵异现象”。

爱力方的分析认为,苹果的这次,堪称“剑走偏锋”的STARFlow-V的发布与开源,其战略意图,是清晰而极具“苹果”风格的。

它,深刻地,揭示了,这家公司,在AI这场“终局之战”中,一种独特的、也可能是更具长期主义的“底层思维”。

  • 它,没有,去参与那场,由Sora、Veo和Runway,所共同主导的、关于“扩散模型”的、日益“内卷”的“军备竞赛”。

  • 它,选择,另辟蹊-径,去探索一条,虽然,在当下,尚不完美,但在理论上,却可能,更具扩展性、更高效、也更接近“第一性原理”的“第三条道路”。

尽管,在目前,STARFlow-V,还存在着分辨率相对较低(640×480, 16fps)、尚无法在标准显卡上进行实时推理,以及,对物理规律理解不足等,一系列明显的局限。

但苹果,也明确地,承认了这些限制,并计划,在未来的工作中,去专注于加快其计算速度、缩小其模型规模,以及,使用那些,更注重“物理精确性”的训练数据。

当一家,拥有着全球最顶尖的AI研究人才、最强大的芯片设计能力,以及,最庞大的硬件生态的公司,开始,以一种“不计成本”的姿态,去下注一条,全新的、非共识的技术路线时:

整个AI视频生成的赛道,其未来的技术版图与竞争格局,或许,都将因此,而被深刻地、永久地,改写。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/