国产算力再攀高峰 摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

2026年01月22日 10:29
本文共计833个字,预计阅读时长3分钟。
来源/aibase 责编/爱力方

国产AI芯片与大模型的协同优化迎来关键里程碑。近日,摩尔线程与硅基流动联合宣布,基于国产GPU MTT S5000,成功完成对千亿参数大模型 DeepSeek V3 671B “满血版”的深度适配与性能验证。通过创新应用FP8( 8 位浮点)低精度推理技术,实测性能表现亮眼:单卡 Prefill(预填充)吞吐量突破4000 tokens/秒,Decode(解码)吞吐超1000 tokens/秒,整体推理速度已逼近国际主流高端AI加速卡水平。

这一成果意义重大。DeepSeek V3 671B作为国内领先的开源大模型,参数规模庞大、推理负载极高,此前多依赖英伟达A100/H100 等高端GPU部署。此次在完全国产化硬件平台上实现高效运行,不仅验证了摩尔线程MTT S5000 在大模型推理场景下的真实能力,更标志着国产AI算力生态正从“能跑”迈向“高效跑”的新阶段。

关键技术突破在于FP8 低精度推理的深度优化。FP8 在保持模型精度损失极小的前提下,可显著提升计算吞吐、降低显存占用与功耗。摩尔线程与硅基流动联合完成了从底层驱动、算子库到推理引擎的全栈调优,使MTT S5000 充分发挥FP8 硬件加速潜力,有效支撑了大模型高并发、低延迟的推理需求。

对于行业而言,这意味着国产替代路径进一步清晰:高性能大模型不再必须绑定海外高端芯片。在当前全球算力供应链不确定性的背景下,MTT S5000 + DeepSeek V3 的组合为金融、政务、能源等关键领域提供了高性价比、高安全性的本土化AI部署选项。

尽管在绝对峰值性能或软件生态成熟度上,国产GPU与国际顶尖产品仍有差距,但此次实测数据表明,在特定高价值场景下,国产方案已具备实用化竞争力。随着软硬件协同优化持续深入,中国AI基础设施的自主可控能力正加速成型——从“可用”到“好用”,只差一次又一次这样的实测突破。

来源:国产算力新突破!摩尔线程×硅基流动在MTT S5000上实现DeepSeek V3 671B满血版高效推理,单卡性能逼近国际顶尖水平 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯