在人工智能(AI)图像编辑的这场、日益追求“逼真”与“可控”的全球“军备竞赛”中,一场深刻的、关乎“编辑范式”的终极革命,正由中国的科技巨头阿里巴巴,以一款,名为Qwen-Image-Layered的、全新的开源模型,悍然引爆。
在过去,几乎所有AI图片编辑工具,其工作的模式,都更像是一位,传统的“油画大师”。

它,在一个,统一的、扁平的“画布”之上,进行创作。这意味着,你,对画面中,任何一个微小元素的修改,都可能会,不可避免地,“污染”和“破坏”到,其周围的其他区域。
而现在,阿里通义千问的这款新模型,则试图,为AI,装上一个,现代的、属于“数字设计师”的、全新的“大脑”。
其核心,只有一个,却又极具颠覆性:
它,让AI,第一次,真正地,学会了,去理解和使用“图层”(Layers)。
这场,堪称“AI版Photoshop革命”的核心,是一种,被其研发团队,称为“图像解耦”的创新思路。
它,不再,将一张静态的图片,视为一个,不可分割的、整体的像素矩阵。
它,以一种,类似于“剥洋葱”的方式,将其,智能地,自动地,分解为,一系列,在语义上,相互独立的RGBA图层。
这其中,每一个图层,都拥有其,专属的颜色(RGB)与透明度(Alpha)信息,并且,可以被,独立地,进行操作,而完全,不会,影响到,其他的任何一个图层。
“这,彻底地,解决了,当前AI图片编辑,所面临的两大核心痛点,”一位参与内测的设计师向AIbase表示,“无论是,全局编辑时,容易破坏未修改区域一致性的问题;还是,基于掩码(Mask)的局部编辑时,难以处理复杂遮挡和模糊边界的难题。”
这场“图层”革命的背后,是通义千问团队,在模型架构上的两大核心创新。

首先,是其全新的RGBA-VAE技术。它,让传统的RGB图像,与新兴的RGBA图层,能够在同一个、统一的“潜空间”(Latent Space)中,进行“对话”和转换,从而,从根本上,解决了图层分布不均、边界模糊不清的问题。
其次,则是其独特的VLD-MMDiT架构。它,支持,从3层,到10层以上的、灵活的图层处理。并且,层与层之间,通过高效的“注意力机制”,进行协同工作,而无需,再进行,那些,低效的、递归式的拆解。
更值得关注的是,该模型,支持“可变数量”的图层分解。这意味着,同一张图像,可以,根据用户的不同需求,被灵活地,拆分为3个粗颗粒度的图层,或者,8个更精细的图层。并且,其中的任何一个图层,都能够,被进一步地,进行“递归”式的、无限层级的再次分解。

爱力方的分析认为,阿里通义千问的这次,堪称“王炸”级的Qwen-Image-Layered的发布与全面开源,其战略意图,是清晰而极具侵略性的。
它,深刻地,揭示了,在AI的这场“下半场”的竞争中,一个,正在浮现的、全新的“价值战场”。
当AI的“生成”能力,日益变得同质化和“商品化”时,谁,能率先地,在“编辑”这个,更贴近专业工作流、也更具商业价值的环节,建立起自己的技术壁垒,谁就将在这场,关乎“创意生产力”的终极战争中,赢得决定性的、无可匹敌的优势。
-
它,正在将AI的角色,从一个,只会“画画”的“艺术家”,历史性地,升维为一个,更懂得“解构”与“重组”的“视觉设计师”。
-
它,也正在,将AI图片编辑的体验,从过去那种,“指东打西”、“靠运气”的“玄学”模式,重塑为一种,“指哪改哪”、“所见即所得”的“精确科学”。
目前,Qwen-Image-Layered的技术报告、代码仓库及在线的Demo,均已,在arXiv、Github、ModelScope和Hugging Face等全球主流的开源平台,同步上线。
当AI,真的,开始,学会,像一个,拥有数十年经验的Photoshop大师一样,去思考和操作“图层”时,一场真正意义上的、深刻的“视觉内容”生产力革命,才算真正地,拉开了序幕。
技术报告:
https://arxiv.org/abs/2512.15603
Github:
https://github.com/QwenLM/Qwen-Image-Layered
ModelScope:
https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face:
https://huggingface.co/Qwen/Qwen-Image-Layered
Demo:
https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered