在AI图像生成的这场、日益“内卷”的全球竞赛中,一场可能将彻底改写“开源生态”版图的、深刻的范式革命,正由一家来自德国的人工智能公司——Black Forest Labs——悍然发动。
该公司近日,正式发布并宣布,一次性地,推出了其全新的FLUX.2图像生成与编辑系统。
这并非又一次在某个单点功能上的渐进式改良。
它是一次系统性的、野心勃勃的“全家桶”式的发布。它,不仅同时覆盖了从商业旗舰(Pro),到开发者调优(Flex),再到边缘部署(Klein)的、完整的应用场景。

更重要的是,它向整个开源社区,完全地、无条件地,开放了其32B参数的、核心的FLUX.2[dev]版本的全部权重与代码。
这个开源的FLUX.2[dev]版本,其所带来的,是一系列堪称“王炸”级的、足以挑战当前开源世界“王者”——Stable Diffusion——统治地位的、全新的“杀手锏”级功能。
“杀手锏”之一:高达10张图像的“多图参考”能力。
-
在过去,即便是最强大的开源模型,在处理多张参考图时,其能力,也往往捉襟见肘。
-
而现在,用户,可以在一次生成任务中,一次性地,上传多达10张,包含了不同风格、构图、角色姿势、光影效果和配色方案的样例图片。
-
FLUX.2,能够以一种前所未有的、高达95%以上的惊人一致性,去理解、融合并再现这些复杂的、多维度的视觉元素。
“杀手锏”之二:高达400万像素(4MP)的“高分辨率编辑”能力。
-
用户,只需输入一张高分辨率的图片,并用简单的笔刷,圈出需要修改的区域(Mask),即可,进行无损的、精细化的局部重绘、对象移除(如,去除水印)、背景替换等一系列专业的编辑操作。
-
甚至,在官方公布的未来技术路线图中,还明确地,包含了对PSD分层导出的支持。
“杀手锏”之三:堪比DALL·E 3的“文本渲染”能力。
-
在处理那些需要在图像中,直接、准确地,渲染出复杂排版、信息图表或UI界面文字的任务时,其文字生成的准确率,高达92%——这个数字,据称,比OpenAI闭源的DALL·E 3,还要高出约10个百分点。
“杀手锏”之四:更符合“现实逻辑”的生成能力。
-
其在处理空间关系、光照物理,以及对世界常识知识的理解上,其错误的发生率,相比于前代,下降了37%。这意味着,其在生成表情包、网络梗图等,需要深度理解“上下文”的内容时,会变得更加“靠谱”。
而比其强大的功能,更令开发者社区,感到兴奋的,是其在“开发者友好性”上,所展现出的巨大诚意。
-
全新的、更高效的VAE自编码器: 其全新的VAE,在潜在空间(Latent Space)上的压缩率,提升了18%。这意味着,无论是进行模型的训练,还是进行最终的推理,其所需要的显存,都将节省约15%。
-
开箱即用的生态支持: 官方的PyTorch实现、Diffusers库的集成,以及ComfyUI的自定义节点插件,都在发布当天,即已全部上架。其GitHub仓库中,也已放出了详细的、入门级的示例脚本。
-
零代码的在线体验: 一个托管在Hugging Face Spaces上的、公开的在线Demo,也已同步上线,供任何一个普通用户,进行零门槛的体验。
这场由Black Forest Labs所发起的、针对开源世界的“闪电战”,其所引发的行业冲击,是即时而剧烈的。
-
Stable Diffusion的官方社区,率先宣布,将支持FLUX.2的checkpoint模型文件格式。
-
而全球最大的、节点式的AI图像生成工作流平台ComfyUI,也已在第一时间,发布了与之适配的、全新的自定义节点。

爱力方的分析认为,FLUX.2的这次,堪称“现象级”的开源发布,其意义,已远超一次简单的技术升级。
它,更像是一次深刻的“权力交接”。
它清晰地,向整个开源AI图像生成社区,宣告:
一个由Stable Diffusion,所长期统治的“SD时代”,其技术范-式,可能正在迎来终结。
而一个由FLUX.2所定义的、以“多图参考”和“高分编辑”为核心特征的、全新的“后SD时代”,其大门,正被悍然推开。
对于电商、广告、漫画、游戏等,所有对“视觉一致性”和“精细化编辑”,有着刚性需求的行业而言,FLUX.2的出现,将极大地,降低其内容制作的门槛,并可能,催生出一系列,我们目前还无法想象的、全新的、AI原生的创意工作流。