百川发布医疗大模型M2 Plus 支持循证推理

爱力方
百川发布循证增强医疗大模型 Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。该模型首创六源循证推理(EAR)范式,降低医疗幻觉率,提升可信度。
官方称,M2 Plus 的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,优于美国医疗产品 OpenEvidence,在美、日、英的医疗评测中均超过 OpenEvidence。
六源循证体系包含原始研究层、证据综述层、指南规范层、实践知识层、公共健康教育层、监管与真实世界层。原始研究层索引医学期刊论文超 4000 万篇;证据综述层整合系统评价和 Meta 分析;指南规范层引入国内外权威临床指南;实践知识层涵盖临床病例与专家经验;公共健康教育层汇集权威科普内容;监管与真实世界层包括药监公告与真实世界研究数据。
M2 Plus 采用 PICO 框架(人群、干预、对照、结局)进行结构化检索,在六源数据库中分层匹配。通过智能提问、精准锁定、证据排序三步实现“找得准”。自研 Medical Contextual Retrieval 技术保留文献因果链,内置“审稿人”模型评估证据等级并优先呈现高可信信息。
模型引入“循证增强训练”机制,奖励引用权威来源,惩罚脱离证据的回答。内置“证据评估器”,优先采纳 RCT、Meta 分析等高质量证据,并在输出关键结论时自动附上参考文献与指南出处,实现句句有据、可回溯验证。
在多场景评测中,M2 Plus 综合幻觉率最低,相较 DeepSeek R1 最新版降低 3 倍,在病史分析、诊断思路、治疗方案等核心医疗场景达到与资深临床专家同等可信度。
301 医院姜医生测试显示,针对足细胞基因治疗递送方案问题,M2 Plus 查到全球最新研究成果并按纳米系统、AAV 病毒载体分类,引用文献专业且贴近顶刊进展。北京天坛医院熊医生反馈,M2 Plus 可梳理 PACAP 在偏头痛中的研究进展,从机制到 III 期临床试验串联证据链。
在美国执业医师资格考试(USMLE)中,M2 Plus 得分 97,与 GPT-5 持平。在中国执业医师资格考试(NMLE)中获 568 分,超过“学神”级别标准。在中国硕士研究生招生考试临床医学综合能力(西医)考试中取得 282 分。在日本、英国、澳大利亚高级医师职称晋升考试中准确率超 85%,远超及格线。
接入 M2 Plus 的百小应已在各大手机应用商店更新,网页版(ying.ai)同步上线。该模型提供标准化 API 接口,支持医院信息化部门、互联网医疗、大健康服务及医疗 AI 开发者接入使用。
百川通过开源 Baichuan-M2、发布 Baichuan-M2 Plus、升级百小应及开放 API,推动大模型在严肃医疗场景进入可用新阶段。