蚂蚁开源Ring-flash-linear-2.0-128K模型,混合注意力与MoE架构提升长文本编程效率

蚂蚁开源Ring-flash-linear-2.0-128K模型,混合注意力与MoE架构提升长文本编程效率

爱力方

爱力方

2025年12月15日 11:24
本文共计1541个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

在AI大模型的这场、日益被“长上下文”所定义的全球“军备竞赛”中,一场更为深刻的、关乎“效率”与“成本”的终极革命,正由中国的科技与金融巨头蚂蚁集团,悍然引爆。

其旗下的百灵大模型团队,近日,正式地,向全球全面开源了其最新一代的、专为“超长文本编程”而设计的创新模型——Ring-flash-linear-2.0-128K

image.png

这并非又一次在上下文窗口长度上的线性堆砌。它是一次深刻的、系统性的、旨在将“超长”与“超快”这两个看似矛盾的目标,进行完美融合的范式革命。

其核心,是仅需激活6.1B的微小参数,便能实现,足以媲美40B级别密集模型的、惊人的SOTA(当前最佳)级表现。

这场“以小博大”的效率革命,其背后,是蚂蚁百灵团队,在模型架构上的两大核心创新。

首先是其开创性的“混合线性注意力”机制。模型的主干采用自研的、计算复杂度近乎线性的注意力融合模块,同时辅以少量标准的、更耗费算力的标准注意力机制。这种设计专为长序列计算提效,在H20硬件上可支持128K上下文下超过200 token/s的生成速度,日常使用提速3倍以上,完美适配了资源受限的真实部署场景。

其次则是其精巧的“稀疏MoE(混合专家)”架构。模型总参数规模虽然高达104B,但通过高达1/32的专家激活比率和多任务处理层(MTP)等一系列优化,其在每一次的推理中,仅需激活6.1B的参数,便能实现近乎线性的时间复杂度和常量级的空间复杂度。

而为了将这套全新的架构,转化为无可辩驳的性能,百灵团队,也在其训练方法上,进行了全面的升级。

模型在Ling-flash-base-2.0的基础上,进一步地,在高达1T(一万亿)令牌的、更高质量的数据集上,进行了额外的微调。

同时,结合了稳定的监督微调(SFT)和多阶段的强化学习(RL),并利用蚂蚁自研的“棒冰(icepop)”算法,成功地,攻克了MoE架构,在进行长链条推理时,所普遍存在的“训练不稳定”这一世界级的难题。

image.png

长上下文黑科技:原生128K+YaRN扩展至512K,长输入输出零卡顿

其结果,是在多个,最能体现模型“智商上限”的、高难度的基准测试中,展现出了卓越的、甚至超越了许多更大规模密集模型的SOTA级表现。

爱力方的分析认为,蚂蚁百灵的这次,堪称“王炸”级的Ring-flash-linear-2.0-128K的发布与全面开源,其战略意图清晰而极具侵略性。

它深刻地揭示了在AI的这场“下半场”竞争中一个正在浮现的全新“价值战场”,即当AI的能力日益变得同质化时,谁能率先地以更低的成本、更高的效率,去解决那些最棘手的、真实世界的“长尾”问题,谁就将赢得最终的商业战争。

“超长文本”的处理能力,正是这场战争中,最关键、也最具价值的“战略高地”之一。

而蚂蚁百灵,通过将其在“MoE + 长思维链 + RL”这条技术路线上,所取得的最新突破,毫无保留地,贡献给整个开源社区,不仅将极大地,降低所有开发者,进行“高效AI编程”的门槛。它更以一种无可辩驳的工程化实力,向全世界宣告:在“长文本”推理这个,成本仅为传统模型1/10的“效率浪潮”之中,中国的开源力量,正试图,去主导和定义,其未来的技术范式。

一个由“小激活、大性能”所定义的AI开源新时代,其大门,正被蚂蚁百灵,悍然推开。

- Hugging Face示例:pip install flash-linear-attention==0.3.2transformers==4.56.1,加载后直接generate长代码提示。

- vLLM在线推理:tensor-parallel-size4下,GPU利用率90%,支持API调用。

技术报告详见arXiv(https://arxiv.org/abs/2510.19338),开发者可立即下载体验。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯