谷歌发布FACTS基准测试 顶尖AI模型准确率均不足七成

爱力方

爱力方

2025年12月11日 11:36
本文共计2136个字,预计阅读时长8分钟。
来源/互联网 责编/爱力方

一场深刻的、关乎未来“信任”归属的、旨在为日益“能言善辩”的人工智能(AI)戴上“事实枷锁”的终极“审判”,正由谷歌,以一套,全新的、名为FACTS(Factual Consistency and Truthfulness Score,事实一致性与真实性评分)的基准测试套件,悍然开启。

这,并非又一次,在某个单一维度上,进行的性能比拼。

它,是一次深刻的、系统性的、旨在从根本上,弥补现有所有AI评测体系,那个最核心、也最致命的“盲区”的范式革命

这个盲区是:我们,一直在,测试AI,是否“聪明”;却很少,去系统性地,测试它,是否“诚实”。

FACTS的诞生,其背后,是一个,在企业级的、高风险的应用场景中,日益凸显的、严峻的现实:

当AI,被应用于法律、金融、医疗等,那些,对“准确性”,有着“零容忍”要求的领域时,一个,能够,旁征博引、口若悬河,但其输出的信息,却与真实世界的数据,存在“客观不一致”的AI,其所能造成的破坏,将是灾难性的。

而FACTS,正是为了,对AI的“事实性”(Factuality),进行一次,标准化的、可被量化的、全面的“体检”。

其初步的、对当前所有最顶级的AI模型的“体检”结果,也向整个行业,发出了一个,清晰而严峻的信号:

尽管,模型,正变得,越来越智能。但它们,距离“完美”,依然,道阻且长。

包括谷歌自家的Gemini 3 Pro、OpenAI的GPT-5,以及Anthropic的Claude 4.5 Opus在内的、所有,参与了测试的、最顶级的模型,其在所有问题上的、综合的“事实性”准确率,均未能,突破70%。

“这意味着,未来,仍有,巨大的提升空间。”谷歌FACTS团队,在其新闻稿中,以一种,略带“外交辞令”的方式,写道。

但其,言下之意,对于所有企业的技术领导者而言,却是清晰而残酷的:

那个,需要我们,对AI的每一个输出,都进行“信任,但要核实”(Trust, but verify)的时代,远未结束。

为了,能够,系统性地,去模拟,AI,在真实生产环境中,可能出现的各种“事实性故障模式”,FACTS测试套件,被精妙地,拆解为了四个,独立的子基准测试:

  1. 参数基准(内部知识):

    • 它,衡量的是,模型,在仅能,依赖其自身的、内部的“记忆”(即,其训练数据)时,其回答问题的准确性。

  2. 搜索基准(工具使用):

    • 它,评估的是,模型,在使用网络搜索等外部工具,去实时地,检索和综合信息时,其“检索增强生成”(RAG)的能力。

  3. 多模态基准(视觉):

    • 它,衡量的是,模型,在准确地,去解释图表、示意图和复杂图像,同时,又能,避免产生“幻觉”的能力。

  4. Grounding基准v2(上下文):

    • 它,评估的是,模型,在被给定了一段明确的、作为“唯一信源”的上下文时,其能否,严格地,遵循这段文本,而不“自由发挥”的能力。

而其,首批公布的“排行榜”,则更是,以一种,冰冷的数据,揭示了,当前,各大顶级模型,其在不同“事实性”维度上的、真实的“长板”与“短板”。

Gemini 3 Pro,虽然,以68.8%的综合得分,领跑全场。

模型 FACTS评分(平均值) 搜索(RAG 能力) 多模态(视觉)
Gemini3Pro 68.8% 83.8% 46.1%
Gemini2.5Pro 62.1% 63.9% 46.9%
GPT-5 61.8% 77.7% 44.1%
Grok4 53.6% 75.3% 25.7%
Claude4.5Opus 51.3% 73.2% 39.2%

但其,细分的数据,却暴露出了一个,在整个行业,都普遍存在的、巨大的、也是最令人担忧的“软肋”:

在“多模态”这个维度上,所有模型,都不及格。

即便是,表现最好的Gemini 2.5 Pro,其在准确地,去“阅读”和“理解”图表、示意图这类,充满了结构化信息的视觉任务上,其准确率,也仅为46.9%

这意味着,如果,你的产品,依赖于AI,去自动地,从财务报表或工程图纸中,抓取数据,而又,没有,设置人工的审核环节,那么,你的系统,将很可能,引入高达三分之一的、严重的、灾难性的错误率。

爱力方的分析认为,谷歌的这次,堪称“自我革命”式的FACTS基准的发布与开放,其意义,已远超一次简单的、技术性的评测。

它,更深刻地,将成为,在未来,所有企业级的AI模型采购中,一个全新的、也可能是最重要的“行业标杆”。

它,以一种,前所未有的、清晰的方式,为所有的技术负责人,提供了一套,可以,根据其自身独特的应用场景,来进行“按需评估”的“度量衡”:

  • 如果,你,正在构建一个,面向外部客户的“客服机器人,那么,你,最应该关注的,或许是,模型,在Grounding基准上的得分。

  • 如果,你,正在构建一个,服务于内部研发的“研究助手”,那么,其,在搜索基准上的表现,则至关重要。

  • 而如果,你,正在构建一个,试图,去自动处理发票和图表的“图像分析工具”,那么,你,则必须,极其地,谨慎,并默认地,假定,你所选择的任何一个模型,在约三分之一的情况下,都可能会,犯下严重的错误。

在这场,由谷歌所开启的、关乎AI“真相”的终极“大-考”中,一个,属于“唯分数论”的、浮躁的“基准测试”时代,正在结束。

而一个,更看重“事实”、更强调“可靠”、也更贴近“真实商业价值”的、全新的“企业级AI”新时代,才刚刚,拉开其序幕。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯