腾讯混元2.0内测启动,406B参数号称推理性能国内领先

爱力方

爱力方

2025年12月08日 11:22
本文共计2004个字,预计阅读时长7分钟。
来源/互联网 责编/爱力方

在中国AI大模型的这场、日益白热化的“军备竞赛”中,一个新的、象征着“顶级俱乐部”入场券的门槛,已经被悄然地,树立了起来——400B(4000亿)参数

继阿里的Llama 3.1-405B和月之暗面的Moonshot 400B之后,12月5日,科技巨头腾讯,也正式地,发布了其新一代的自研大模型——混元2.0(Tencent HY2.0)

这,并非又一次,简单的、为了追赶潮流的“参数堆砌”。

腾讯,试图,用其在数学、科学和代码等、最能体现模型“智商上限”的、复杂的推理任务上的、无可辩驳的性能数据,来向整个行业,宣告:

参数,固然重要。但如何,将庞大的参数,转化为真正有用的、可靠的“推理能力”,才是这场“终局之战”的、最终的胜负手。

混元2.0的发布,其核心,是两款,分别针对不同应用场景、进行了深度优化的“孪生”版本:

  • HY2.0 Think(推理增强版):

    • 这,是腾讯,此次,用来“秀肌肉”的、最锋利的“矛”。

    • 其核心的战场,被精准地,锁定在了那些,最能体现模型,进行长链条、复杂逻辑推演能力的“奥林匹克”赛道之上。

    • 在国际数学奥林匹克(IMO)2025的公开题库,和哈佛-MIT数学竞赛(HMMT)这两个,被公认为“最难啃的硬骨头”的基准测试中,HY2.0 Think版的解题准确率,分别,达到了83.1%81.7%

    • 这两个数字,均已,明确地,超越了OpenAI的GPT-4o(78.9%)在同类测试中的公开成绩。

  • HY2.0 Instruct(指令遵循版):

    • 这,则是腾讯,用来,应对日常、多轮、复杂交互的“坚固的盾”。

    • 其优化的重点,在于,对人类指令的、高度的、多轮的遵循能力。

    • 通过,引入“可被验证的任务 + 评分式的强化学习”(Verified Tasks + Scored RL)这一全新的训练范式,Instruct版本,在衡量多轮对话能力的Multi-Round MT-Bench基准上,其得分,达到了8.42分——这个数字,比所有同等规模的模型,都要高出约0.3分。

    • 同时,其对Function Call、Json Mode和Tool Use这些,在构建AI Agent(智能体)时,至关重要的“工具调用”能力的支持,也达到了惊人的稳定性:官方实测,其在连续100轮的工具调用中,其成功率,高达97.2%

而支撑这两大“孪生”模型,实现性能飞跃的,是其在底层技术架构上的两大核心创新:

  1. 高效的MoE(混合专家)架构:

    • 混元2.0,采用了当前最前沿的MoE架构,其总参数量,达到了406B。但其在每一次的推理中,所需要被激活的“专家”参数量,仅为32B

    • 这种“平时休眠,战时激活”的架构,带来了惊人的效率提升。实测显示,在单张A100的GPU上,其推理的速度,相比于传统的、同等规模的Dense(稠密)结构,提升了40%

  2. 超长的、经过优化的256K上下文窗口:

    • 混元2.0,支持高达256K的上下文窗口。

    • 更关键的是,它,通过一种被称为“分段采样修正”(Segmental Sampling Correction)的、全新的长窗口强化学习(RL)技术,有效地,解决了困扰业界的、模型在“训练”与“推理”两个阶段,其行为不一致的难题。

    • 在一个需要处理10万Token的、超长文档的问答任务中,其F1值(综合了准确率与召回率的指标),相比于未优化的版本,提升了6.8%

而比其技术上的突破,更具杀伤力的,是其在商业化落地上的、清晰、快速、且极具侵略性的“三线并进”策略。

  • C端应用,光速落地:

    • 在其拥有亿级用户的、旗舰级的AI助手“元宝”App中,一个可以手动切换至“HY2.0 Think”模式的按钮,已经,在灰度测试中,悄然上线。

  • B端工具,深度集成:

    • 在其对标Notion AI的、新一代的智能会议与文档工具ima中,其256K的长文本总结能力,也已被深度集成。一段包含了5万Token的、冗长的会议纪要,其生成摘要的耗时,已被压缩到了低于15秒

  • 云端API,价格屠夫:

    • 腾讯云上,其API的定价,也极具竞争力:其输入与输出的价格,大约,仅为OpenAI的GPT-4o的45%

爱力方的分析认为,腾讯的这次,堪称“全家桶”式的混元2.0的发布,其背后,是一种极其清晰、也极其务实的“后发制人”战略。

它,深刻地,认识到,在“参数规模”这个单一的维度上,去与开源社区(如Llama 3.1-405B)或早期的领先者,进行无休止的“内卷”,其边际效益,正在递减。

因此,它,选择,将自己最核心的“火力”,精准地,聚焦在了那两个,更能决定AI最终“价值”的、全新的维度之上:

“将推理的能力,做得更深;将工具的调用,做得更稳。”

而其,将在2026年第一季度,全面开源HY2.0的Base模型权重、200GB的中文预训练数据,以及其独创的长窗口RL工具链的承诺,则更是,为其,在这场,关乎中国AI生态主导权的“终局之战”中,投下了一枚,极具分量的、也是最受开发者欢迎的“重磅炸弹”。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/