谷歌发布FACTS基准测试顶尖AI模型准确率均不足七成-A³·爱力方

一场深刻的、关乎未来“信任”归属的、旨在为日益“能言善辩”的人工智能（AI）戴上“事实枷锁”的终极“审判”，正由谷歌，以一套，全新的、名为FACTS（Factual Consistency and Truthfulness Score，事实一致性与真实性评分）的基准测试套件，悍然开启。

这，并非又一次，在某个单一维度上，进行的性能比拼。

它，是一次深刻的、系统性的、旨在从根本上，弥补现有所有AI评测体系，那个最核心、也最致命的“盲区”的范式革命。

这个盲区是：我们，一直在，测试AI，是否“聪明”；却很少，去系统性地，测试它，是否“诚实”。

FACTS的诞生，其背后，是一个，在企业级的、高风险的应用场景中，日益凸显的、严峻的现实：

当AI，被应用于法律、金融、医疗等，那些，对“准确性”，有着“零容忍”要求的领域时，一个，能够，旁征博引、口若悬河，但其输出的信息，却与真实世界的数据，存在“客观不一致”的AI，其所能造成的破坏，将是灾难性的。

而FACTS，正是为了，对AI的“事实性”（Factuality），进行一次，标准化的、可被量化的、全面的“体检”。

其初步的、对当前所有最顶级的AI模型的“体检”结果，也向整个行业，发出了一个，清晰而严峻的信号：

尽管，模型，正变得，越来越智能。但它们，距离“完美”，依然，道阻且长。

包括谷歌自家的Gemini 3 Pro、OpenAI的GPT-5，以及Anthropic的Claude 4.5 Opus在内的、所有，参与了测试的、最顶级的模型，其在所有问题上的、综合的“事实性”准确率，均未能，突破70%。

“这意味着，未来，仍有，巨大的提升空间。”谷歌FACTS团队，在其新闻稿中，以一种，略带“外交辞令”的方式，写道。

但其，言下之意，对于所有企业的技术领导者而言，却是清晰而残酷的：

那个，需要我们，对AI的每一个输出，都进行“信任，但要核实”（Trust, but verify）的时代，远未结束。

为了，能够，系统性地，去模拟，AI，在真实生产环境中，可能出现的各种“事实性故障模式”，FACTS测试套件，被精妙地，拆解为了四个，独立的子基准测试：

参数基准（内部知识）：
- 它，衡量的是，模型，在仅能，依赖其自身的、内部的“记忆”（即，其训练数据）时，其回答问题的准确性。
搜索基准（工具使用）：
- 它，评估的是，模型，在使用网络搜索等外部工具，去实时地，检索和综合信息时，其“检索增强生成”（RAG）的能力。
多模态基准（视觉）：
- 它，衡量的是，模型，在准确地，去解释图表、示意图和复杂图像，同时，又能，避免产生“幻觉”的能力。
Grounding基准v2（上下文）：
- 它，评估的是，模型，在被给定了一段明确的、作为“唯一信源”的上下文时，其能否，严格地，遵循这段文本，而不“自由发挥”的能力。

而其，首批公布的“排行榜”，则更是，以一种，冰冷的数据，揭示了，当前，各大顶级模型，其在不同“事实性”维度上的、真实的“长板”与“短板”。

Gemini 3 Pro，虽然，以68.8%的综合得分，领跑全场。

模型	FACTS评分（平均值）	搜索（RAG 能力）	多模态（视觉）
Gemini3Pro	68.8%	83.8%	46.1%
Gemini2.5Pro	62.1%	63.9%	46.9%
GPT-5	61.8%	77.7%	44.1%
Grok4	53.6%	75.3%	25.7%
Claude4.5Opus	51.3%	73.2%	39.2%

但其，细分的数据，却暴露出了一个，在整个行业，都普遍存在的、巨大的、也是最令人担忧的“软肋”：

在“多模态”这个维度上，所有模型，都不及格。

即便是，表现最好的Gemini 2.5 Pro，其在准确地，去“阅读”和“理解”图表、示意图这类，充满了结构化信息的视觉任务上，其准确率，也仅为46.9%。

这意味着，如果，你的产品，依赖于AI，去自动地，从财务报表或工程图纸中，抓取数据，而又，没有，设置人工的审核环节，那么，你的系统，将很可能，引入高达三分之一的、严重的、灾难性的错误率。

爱力方的分析认为，谷歌的这次，堪称“自我革命”式的FACTS基准的发布与开放，其意义，已远超一次简单的、技术性的评测。

它，更深刻地，将成为，在未来，所有企业级的AI模型采购中，一个全新的、也可能是最重要的“行业标杆”。

它，以一种，前所未有的、清晰的方式，为所有的技术负责人，提供了一套，可以，根据其自身独特的应用场景，来进行“按需评估”的“度量衡”：

如果，你，正在构建一个，面向外部客户的“客服机器人”，那么，你，最应该关注的，或许是，模型，在Grounding基准上的得分。
如果，你，正在构建一个，服务于内部研发的“研究助手”，那么，其，在搜索基准上的表现，则至关重要。
而如果，你，正在构建一个，试图，去自动处理发票和图表的“图像分析工具”，那么，你，则必须，极其地，谨慎，并默认地，假定，你所选择的任何一个模型，在约三分之一的情况下，都可能会，犯下严重的错误。

在这场，由谷歌所开启的、关乎AI“真相”的终极“大-考”中，一个，属于“唯分数论”的、浮躁的“基准测试”时代，正在结束。

而一个，更看重“事实”、更强调“可靠”、也更贴近“真实商业价值”的、全新的“企业级AI”新时代，才刚刚，拉开其序幕。

通知

尊敬的用户

user

谷歌发布FACTS基准测试顶尖AI模型准确率均不足七成

爱力方

相关图文

人形机器人迎来复兴浪潮

谷歌DeepMind英国设材料科学实验室

Figma推出AI图像编辑功能：一键删除对象，自动扩展画面，工具栏整合归位

铁流股份杭州设智能机器人公司布局AI业务

星源智机器人获超亿元天使+轮融资

Qwen3-TTS升级多样化声音提升语音合成自然度

热门资讯

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

从跑酷到叠衣：机器人行业为何集体放弃“炫技”？

2.2亿用户，115亿美元血亏：OpenAI的“万亿帝国”，是梦想还是泡沫？

从六轴到七轴，不止多一轴：松灵NERO发布，开启机器人精细操作新篇章

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

快讯

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

下一篇