阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

2026年04月10日 10:53

本文共计1280个字，预计阅读时长5分钟。

来源/aibase 责编/爱力方

阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct，再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B，激活参数量却仅0.86B（约占5%），推理效率极高，甚至在普通 CPU 上即可实现流畅运行。

极致轻量化:CPU 也能跑飞起

根据官方估算，若采用8bit 量化并搭配4条 DDR42400内存，该模型推理速度可达约30token/s。这一性能让 MoE 架构真正走向“人人可用”的阶段，极大降低了本地部署门槛。

核心创新:Upcycling 技术“点石成金”

Marco-Mini-Instruct 的最大亮点并非参数规模或速度，而是其诞生方式。该模型并非从零开始训练，而是基于 Qwen3-0.6B-Base 模型通过upcycling技术转化而来。

具体流程为:将 Dense 小模型的部分模块拆分或复制为多个专家（experts），并引入路由机制;同时结合细粒度子矩阵切分与Drop-Upcycling策略（训练过程中按一定概率随机丢弃部分专家或路由路径，加入正则化以提升鲁棒性），实现了从纯 Dense 模型到 MoE 架构的平滑升级。这一方法为行业提供了低成本、高效率的 MoE 炼制新路径。

上下文与训练配置细节

模型 config 中 max_position_embeddings 已扩展至32K，但 SFT 阶段实际采用8192token 上下文，因此默认上下文长度更适合大多数实际应用场景。

后训练亮点:级联 On-Policy 蒸馏

后训练流程同样亮眼:先进行 SFT 预热，随后采用级联 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 为教师模型进行蒸馏，再切换至更强大的 Qwen3-Next-80B-A3B-Instruct。蒸馏数据覆盖指令遵循、复杂推理、对齐安全、数学能力等多维度，确保模型在保持高效的同时，全面提升综合智能水平。

性能实测:0.86B 激活碾压4B 级 Dense 模型

最终发布的 Marco-Mini-Instruct 在大部分主流 benchmark 上，以仅0.86B 激活参数的表现，超越了 Qwen3-4B 等众多 Dense 模型，充分验证了 MoE 架构在“小而美”路线上的巨大潜力。

行业意义:开源 MoE 炼制新范式

AIbase 认为，这一成果的最大价值在于为广大开发者打开了一扇新大门——无需从零训练海量 MoE 模型，只需选取一个合适的 Dense 小模型，严格复现论文中的 upcycling+Drop-Upcycling 流程即可。整个训练成本可控:SFT 阶段仅需64GPU×24小时，蒸馏阶段为64GPU×110小时，极大降低了中小团队尝试 MoE 的门槛。

阿里此次“魔改”再次证明:模型效率的突破不一定依赖参数堆砌，创新训练范式同样能带来质的飞跃。Marco-Mini-Instruct 的发布，无疑将加速 MoE 技术在边缘设备、个人开发者场景中的落地，值得全行业持续关注。

来源：阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！ | AIbase

声明：本文来自aibase，版权归作者所有。文章内容仅代表作者独立观点，不代表A³·爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

通知

尊敬的用户

user

资讯

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

相关图文

蔚来资本等入股灵猴机器人爱诗科技发布影视行业大模型PixVerse C1

中国AI大模型Token调用领跑全球算力产业链迎来大爆发

阿里巴巴进入AI全面加速期：新设技术委员会，升级通义大模型事业部

红熊AI完成2.1亿元A轮融资投后估值突破15亿

全球调用量突破 27 万亿！中国 AI 大模型连续五周力压美国，包揽榜单前六

中国AI大模型上周调用量环比增长18.9%；清明假期全国重点零售和餐饮企业日均销售额同比增长2.4%

热门资讯

智源研究院发布RoboClaw具身智能操作系统，让机器人开箱即用

谷歌新技术冲击市场美芯片股市值暴跌

360推出GEO产品360智见助力品牌AI精准识别价值

微信支付AI接入工具箱正式上线一句话即可生成收款工具

马斯克惊叹全球首例全脑仿真具身智能问世

萌友智能携手环球影业IP 2026年AI陪伴赛道洗牌灵魂成突围关键

快讯

阿里云押注世界模型，清华系AI公司生数科技完成近20亿元B轮融资

短剧行业震荡：红果合并真人与AI榜单，AI仿真人剧热度首次超过实拍剧

网易智企发布“帝王蟹”企业AI Agent产品，提升企业AI应用可控性与安全性

花生医院引进第三代机器人导航经颅磁技术，助力破解难治性抑郁与失眠问题

消息称追觅俞浩提出2亿元年薪招首席科学家，并称将与宇树竞争“抢一切”

AI时代来临，我们还需要一座又一座教育展厅吗？

孙磊：以绿色算力培育优质牧草，用Token经济链动新就业

联想新财年将发布“AI主机”：从天禧生态走向全场景智能

AI内容创作能力被指超越人类，创意危机问题引发关注

涉及智能网联汽车、脑机接口等领域，市场监管总局批准发布一批重要国家标准

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

相关图文

蔚来资本等入股灵猴机器人 爱诗科技发布影视行业大模型PixVerse C1

中国AI大模型Token调用领跑全球 算力产业链迎来大爆发

阿里巴巴进入AI全面加速期：新设技术委员会，升级通义大模型事业部

红熊AI完成2.1亿元A轮融资 投后估值突破15亿

全球调用量突破 27 万亿！中国 AI 大模型连续五周力压美国，包揽榜单前六

中国AI大模型上周调用量环比增长18.9%；清明假期全国重点零售和餐饮企业日均销售额同比增长2.4%

热门资讯

智源研究院发布RoboClaw具身智能操作系统，让机器人开箱即用

谷歌新技术冲击市场 美芯片股市值暴跌

360推出GEO产品360智见 助力品牌AI精准识别价值

微信支付AI接入工具箱正式上线 一句话即可生成收款工具

马斯克惊叹全球首例全脑仿真具身智能问世

萌友智能携手环球影业IP 2026年AI陪伴赛道洗牌 灵魂成突围关键

快讯

阿里云押注世界模型，清华系AI公司生数科技完成近20亿元B轮融资

短剧行业震荡：红果合并真人与AI榜单，AI仿真人剧热度首次超过实拍剧

网易智企发布“帝王蟹”企业AI Agent产品，提升企业AI应用可控性与安全性

花生医院引进第三代机器人导航经颅磁技术，助力破解难治性抑郁与失眠问题

消息称追觅俞浩提出2亿元年薪招首席科学家，并称将与宇树竞争“抢一切”

AI时代来临，我们还需要一座又一座教育展厅吗？

孙磊：以绿色算力培育优质牧草，用Token经济链动新就业

联想新财年将发布“AI主机”：从天禧生态走向全场景智能

AI内容创作能力被指超越人类，创意危机问题引发关注

涉及智能网联汽车、脑机接口等领域，市场监管总局批准发布一批重要国家标准

推荐专栏

爱力方

机器人大讲堂

下一篇

蔚来资本等入股灵猴机器人爱诗科技发布影视行业大模型PixVerse C1

中国AI大模型Token调用领跑全球算力产业链迎来大爆发

红熊AI完成2.1亿元A轮融资投后估值突破15亿

谷歌新技术冲击市场美芯片股市值暴跌

360推出GEO产品360智见助力品牌AI精准识别价值

微信支付AI接入工具箱正式上线一句话即可生成收款工具

萌友智能携手环球影业IP 2026年AI陪伴赛道洗牌灵魂成突围关键