在人工智能(AI)的这场、日益被“更高跑分”所定义的全球“军备竞赛”中,一个全新的、也可能,更接近于“智能本质”的“新维度”,正由权威的人工智能研究机构METR,以一项,全新的基准测试,悍然开启。
这场测试,不再,仅仅,去衡量AI的“智商”——即,其,能否,在一个单一的、孤立的任务中,给出一个“正确”的答案。
它,开始,去衡量AI的“耐力”——即,其,能否,在一个,包含了数百、甚至数千个步骤的、超长的时间序列任务中,持续地,保持其“专注”与“正确”。
而在这场,全新的“AI马拉松”的首场比赛中,来自Anthropic的顶级模型Claude Opus 4.5,以一种,近乎于“碾压”的、无可争议的姿态,展现出了其“统治级”的实力。
测试的结果,清晰地,揭示了Claude Opus 4.5,在不同难度挑战下的、惊人的“耐力边界”。
其核心的指标,被称为“时间分辨率”(Temporal Resolution)。它,衡量的是,在维持一个特定的任务成功率的前提下,模型能够持续地,处理一个复杂任务的最长时长。
而Claude Opus 4.5,交出的“成绩单”是:

在维持50%成功率的前提下,它能够持续地,处理一个复杂的、多步骤的任务,长达约4小时49分钟。
这个数字,不仅,刷新了该项测试的所有历史记录。
它更以一种,无可辩驳的方式,向整个行业,宣告了一个,深刻的、系统性的“角色转变”。
AI,正在从过去那个,只能,进行“一问一答”式的、短时记忆的“短指令回复者”,历史性地,进化为一个,能够,去独立地,执行一个,完整的、长周期的项目的“长程项目执行者”。
然而,在这场,堪称“惊艳”的性能展示背后,来自行业专家的、更为审慎的质疑,也随之而来。
他们,主要指出了该项测试,在当前阶段,所存在的两大局限性:
-
样本量的局限:
-
目前,METR的这项基准测试,仅仅涵盖了14个测试样本。
-
METR的官方,也坦诚地承认,测试数据中,所出现的、那个模型理论上,可以连续工作超过20小时的、更为惊人的数值,很可能,是由于样本量过小,而产生的统计学上的误差。
-
-
“刷分”的可能性:
-
也有观点认为,任何一种,被公开的、标准化的基准测试,都将不可避免地,面临被模型,进行针对性的“过拟合”与“刷分”的风险。
-
“这,是一个好的开始。但我们,距离一个能够真正地,去衡量通用人工智能(AGI)在长程任务中可靠性的‘终极标尺’,依然道阻且长。”一位不愿具名的AI安全研究员向爱力方表示。
那么,我们,应该如何,去理解Claude Opus 4.5的这次“破纪录”?
它,究竟是一次,被“过度解读”的、小样本的“偶然胜利”;还是一次,真正意义上的、预示着AI能力边界,正在发生深刻“质变”的**“必然前兆”**?
或许,答案,并不在于,那个具体的“4小时49分钟”的数字本身。
它的真正意义,在于,它为我们打开了一扇,全新的、观察和评估AI进化水平的“窗口”。
它,提醒我们,当AI的“智商”,日益变得同质化时,那真正,能够,将“聪明的模型”,与“可靠的伙伴”,区分开来的,或许,正是这种,看似“枯燥”、却又至关重要的“耐力”。
而在这场,关乎“持续执行能力”的、更为漫长、也更接近于“真实世界”的全新竞赛中,Claude,无疑,已经,率先地,冲出了起跑线。