一场深刻的、关乎未来“信任”归属的、旨在为日益“能言善辩”的人工智能(AI)戴上“事实枷锁”的终极“审判”,正由谷歌,以一套,全新的、名为FACTS(Factual Consistency and Truthfulness Score,事实一致性与真实性评分)的基准测试套件,悍然开启。
这,并非又一次,在某个单一维度上,进行的性能比拼。
它,是一次深刻的、系统性的、旨在从根本上,弥补现有所有AI评测体系,那个最核心、也最致命的“盲区”的范式革命。
这个盲区是:我们,一直在,测试AI,是否“聪明”;却很少,去系统性地,测试它,是否“诚实”。
FACTS的诞生,其背后,是一个,在企业级的、高风险的应用场景中,日益凸显的、严峻的现实:
当AI,被应用于法律、金融、医疗等,那些,对“准确性”,有着“零容忍”要求的领域时,一个,能够,旁征博引、口若悬河,但其输出的信息,却与真实世界的数据,存在“客观不一致”的AI,其所能造成的破坏,将是灾难性的。
而FACTS,正是为了,对AI的“事实性”(Factuality),进行一次,标准化的、可被量化的、全面的“体检”。
其初步的、对当前所有最顶级的AI模型的“体检”结果,也向整个行业,发出了一个,清晰而严峻的信号:
尽管,模型,正变得,越来越智能。但它们,距离“完美”,依然,道阻且长。
包括谷歌自家的Gemini 3 Pro、OpenAI的GPT-5,以及Anthropic的Claude 4.5 Opus在内的、所有,参与了测试的、最顶级的模型,其在所有问题上的、综合的“事实性”准确率,均未能,突破70%。
“这意味着,未来,仍有,巨大的提升空间。”谷歌FACTS团队,在其新闻稿中,以一种,略带“外交辞令”的方式,写道。
但其,言下之意,对于所有企业的技术领导者而言,却是清晰而残酷的:
那个,需要我们,对AI的每一个输出,都进行“信任,但要核实”(Trust, but verify)的时代,远未结束。
为了,能够,系统性地,去模拟,AI,在真实生产环境中,可能出现的各种“事实性故障模式”,FACTS测试套件,被精妙地,拆解为了四个,独立的子基准测试:
-
参数基准(内部知识):
-
它,衡量的是,模型,在仅能,依赖其自身的、内部的“记忆”(即,其训练数据)时,其回答问题的准确性。
-
-
搜索基准(工具使用):
-
它,评估的是,模型,在使用网络搜索等外部工具,去实时地,检索和综合信息时,其“检索增强生成”(RAG)的能力。
-
-
多模态基准(视觉):
-
它,衡量的是,模型,在准确地,去解释图表、示意图和复杂图像,同时,又能,避免产生“幻觉”的能力。
-
-
Grounding基准v2(上下文):
-
它,评估的是,模型,在被给定了一段明确的、作为“唯一信源”的上下文时,其能否,严格地,遵循这段文本,而不“自由发挥”的能力。
-
而其,首批公布的“排行榜”,则更是,以一种,冰冷的数据,揭示了,当前,各大顶级模型,其在不同“事实性”维度上的、真实的“长板”与“短板”。
Gemini 3 Pro,虽然,以68.8%的综合得分,领跑全场。
| 模型 | FACTS评分(平均值) | 搜索(RAG 能力) | 多模态(视觉) |
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok4 | 53.6% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |
但其,细分的数据,却暴露出了一个,在整个行业,都普遍存在的、巨大的、也是最令人担忧的“软肋”:
在“多模态”这个维度上,所有模型,都不及格。
即便是,表现最好的Gemini 2.5 Pro,其在准确地,去“阅读”和“理解”图表、示意图这类,充满了结构化信息的视觉任务上,其准确率,也仅为46.9%。
这意味着,如果,你的产品,依赖于AI,去自动地,从财务报表或工程图纸中,抓取数据,而又,没有,设置人工的审核环节,那么,你的系统,将很可能,引入高达三分之一的、严重的、灾难性的错误率。
爱力方的分析认为,谷歌的这次,堪称“自我革命”式的FACTS基准的发布与开放,其意义,已远超一次简单的、技术性的评测。
它,更深刻地,将成为,在未来,所有企业级的AI模型采购中,一个全新的、也可能是最重要的“行业标杆”。
它,以一种,前所未有的、清晰的方式,为所有的技术负责人,提供了一套,可以,根据其自身独特的应用场景,来进行“按需评估”的“度量衡”:
-
如果,你,正在构建一个,面向外部客户的“客服机器人”,那么,你,最应该关注的,或许是,模型,在Grounding基准上的得分。
-
如果,你,正在构建一个,服务于内部研发的“研究助手”,那么,其,在搜索基准上的表现,则至关重要。
-
而如果,你,正在构建一个,试图,去自动处理发票和图表的“图像分析工具”,那么,你,则必须,极其地,谨慎,并默认地,假定,你所选择的任何一个模型,在约三分之一的情况下,都可能会,犯下严重的错误。
在这场,由谷歌所开启的、关乎AI“真相”的终极“大-考”中,一个,属于“唯分数论”的、浮躁的“基准测试”时代,正在结束。
而一个,更看重“事实”、更强调“可靠”、也更贴近“真实商业价值”的、全新的“企业级AI”新时代,才刚刚,拉开其序幕。