阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE,激活参数仅 5%,CPU 直接跑 30token/s!

2026年04月10日 10:53
本文共计1280个字,预计阅读时长5分钟。
来源/aibase 责编/爱力方

阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct,再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B,激活参数量却仅0.86B(约占5%),推理效率极高,甚至在普通 CPU 上即可实现流畅运行。

QQ20260410-102324.png

极致轻量化:CPU 也能跑飞起

根据官方估算,若采用8bit 量化并搭配4条 DDR42400内存,该模型推理速度可达约30token/s。这一性能让 MoE 架构真正走向“人人可用”的阶段,极大降低了本地部署门槛。

核心创新:Upcycling 技术“点石成金”

Marco-Mini-Instruct 的最大亮点并非参数规模或速度,而是其诞生方式。该模型并非从零开始训练,而是基于 Qwen3-0.6B-Base 模型通过upcycling技术转化而来。

QQ20260410-102335.png

具体流程为:将 Dense 小模型的部分模块拆分或复制为多个专家(experts),并引入路由机制;同时结合细粒度子矩阵切分Drop-Upcycling策略(训练过程中按一定概率随机丢弃部分专家或路由路径,加入正则化以提升鲁棒性),实现了从纯 Dense 模型到 MoE 架构的平滑升级。这一方法为行业提供了低成本、高效率的 MoE 炼制新路径。

上下文与训练配置细节

模型 config 中 max_position_embeddings 已扩展至32K,但 SFT 阶段实际采用8192token 上下文,因此默认上下文长度更适合大多数实际应用场景。

后训练亮点:级联 On-Policy 蒸馏

后训练流程同样亮眼:先进行 SFT 预热,随后采用级联 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 为教师模型进行蒸馏,再切换至更强大的 Qwen3-Next-80B-A3B-Instruct。蒸馏数据覆盖指令遵循、复杂推理、对齐安全、数学能力等多维度,确保模型在保持高效的同时,全面提升综合智能水平。

性能实测:0.86B 激活碾压4B 级 Dense 模型

最终发布的 Marco-Mini-Instruct 在大部分主流 benchmark 上,以仅0.86B 激活参数的表现,超越了 Qwen3-4B 等众多 Dense 模型,充分验证了 MoE 架构在“小而美”路线上的巨大潜力。

行业意义:开源 MoE 炼制新范式

AIbase 认为,这一成果的最大价值在于为广大开发者打开了一扇新大门——无需从零训练海量 MoE 模型,只需选取一个合适的 Dense 小模型,严格复现论文中的 upcycling+Drop-Upcycling 流程即可。整个训练成本可控:SFT 阶段仅需64GPU×24小时,蒸馏阶段为64GPU×110小时,极大降低了中小团队尝试 MoE 的门槛。

阿里此次“魔改”再次证明:模型效率的突破不一定依赖参数堆砌,创新训练范式同样能带来质的飞跃。Marco-Mini-Instruct 的发布,无疑将加速 MoE 技术在边缘设备、个人开发者场景中的落地,值得全行业持续关注。

来源:阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE,激活参数仅 5%,CPU 直接跑 30token/s! | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/