AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”

AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”

爱力方

爱力方

2025年11月24日 15:15
本文共计1837个字,预计阅读时长7分钟。
来源/互联网 责编/爱力方

人工智能(AI)一路高歌猛进、似乎已无所不能的今天,一场来自物理学界的、极其严苛的、堪称“博士资格大考”式的基准测试,为这股狂热的浪潮,注入了一剂强力的、也是无比必要的“镇静剂”。

这项名为“CritPt”的全新物理学基准测试,其结果,是令人警醒的:

即便是目前全球公认的、最顶尖的两大AI模型——谷歌的Gemini 3 Pro和OpenAI的GPT-5——在面对真正的、原创性的、前沿的科学研究问题时,其表现,也堪称“惨不忍睹”。

其最高的准确率,尚不足10%。

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题- 产业链- 光通信Pro

这场“大考”的出题方,是一个由来自全球30多个顶尖科研机构的、超过50位物理学家,所共同组成的“学术委员会”。

其核心的目标,远非去检验AI,对那些早已写在教科书上的、已知的物理学知识的“记忆能力”。

它,旨在测试一个更为根本、也更为艰难的能力:AI,是否,已经具备了,去独立地,解决那些原创性的、从未被发表过的、真正的“研究问题”的能力?

这,相当于,是在考核AI,是否,已经达到了一个“能力出众的、博士早期研究生的、独立的科研水平”。

为了确保这场考试的绝对公平,和防止任何形式的“作弊”,CritPt,包含了71个完整的、全部基于“未发表”资料的研究挑战。

其涵盖的范围,囊括了量子物理、天体物理、高能物理和生物物理等11个最前沿的、人类知识的边界领域。

而这场“博士大考”的初步“阅卷结果”,是残酷而清醒的。

根据一家独立的人工智能分析公司(Artificial Analysis)的评估:

  • 被谷歌誉为“有史以来最智能模型”的Gemini 3 Pro Preview,其在71个完整挑战中的,最终准确率,仅为9.1%

  • 而排名第二的、OpenAI的旗舰模型GPT-5.1 (high),其准确率,更是低至4.9%

这个悬殊的结果,无情地,揭示了当前所有的大语言模型,在面对真正开放式的、需要严谨性、创造性和高度精确性的物理学问题时,其共同的、结构性的缺陷。

尽管,在那些被进一步细分出来的、定义更明确的、更小的“检查点”子任务上,这些模型,都表现出了一定的、解决局部问题的进步。

但当需要它们,去将这些“点”,串联成一条完整的、逻辑自洽的、能够最终解决一个完整科研挑战的“线”时,它们,几乎是,束手无策。

而比其“准确率低”更令人担忧的,是其“推理能力的脆弱性”。

研究团队,为了测试模型的稳定性,引入了一项更为严苛的评价指标——“一致解决率”。其要求是,模型,必须在五次独立的尝试中,至少有四次,都能够给出正确的答案。

在这个指标之下,所有模型的表现,都出现了“全面的、大幅度的下滑”。

这意味着,即使AI,偶尔,能够“幸运地”,蒙对一次正确的答案,但它,却完全无法,保证下一次,还能稳定地、可复现地,得到同样的结果。

这种“稳健性”的缺失,对于严肃的、讲求可复现性的科学研究而言,是致命的。

模型,常常能够,生成出一些看似头头是道、逻辑严密的中间步骤和最终结论。但其内部,却往往隐藏着一些极其细微的、非专业人士难以察觉的逻辑谬误或计算错误。

这,极易,对人类研究员,产生严重的误导。

爱力方的分析认为,CritPt的这项研究,其最大的价值,在于它为我们,提供了一把冷静的、客观的、科学的“标尺”。

它,帮助我们,去精准地,丈量出了,在“AI能够成为一个真正的、自主的科学家”这个宏大的、充满了诱惑力的愿景,与当下AI所具备的、真实的、脆弱的能力之间,那道依然存在的、巨大的、不可忽视的鸿-沟。

基于CritPt的测试结果,研究人员们,也给出了一个更为切合实际的、在可预见的未来,我们应该追求的目标:

我们,或许,不应再不切实际地,去幻想,用一个全能的“AI科学家”,来完全地,取代人类专家。

一个更现实、也更具可行性的路径,是去利用AI,作为一个强大的“研究助理”,来将那些在科研工作流程中,繁琐的、重复性的、信息密集型的特定步骤,进行自动化的处理,从而,将人类研究员,从枯燥的劳动中解放出来,使其,能够专注于那些,真正需要创造力、直觉和灵感的、更高层次的思考。

而OpenAI,似乎,也正在务实地,朝这个方向努力。其声称,GPT-5,已经开始,为研究人员节省时间,并计划,在2026年9月前,推出一个“研究实习生”系统;而其更为宏大的、推出“完全自主的研究员系统”的目标,则被设定在了2028年3月。

但CritPt的结果,清晰地,提醒着我们:

要实现这最后一步的、从“助理”到“研究员”的终极跃迁,AI,所需要跨越的技术鸿沟,可能远比我们,最大胆的想象,还要深远。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯