在人工智能(AI)的这场全球“军备竞赛”中,一篇来自科技巨头苹果公司的、高调宣称其“小模型,在视觉推理能力上,已超越GPT-5”的重磅论文,正以一种意想不到的、近乎于“公开处刑”的方式,迅速地,沦为了一场学术界的闹剧。
而戳穿这件“皇帝新衣”的,并非另一家科技巨头,也不是某位匿名的审稿人。
仅仅是,来自中国AI初创公司“阶跃星辰”的一位普通研究员Lei Yang,在GitHub上,提交的一个,再也普通不过的Issue。

这场风暴的起点,是全球最顶级的AI学术会议ICLR 2025,刚刚结束的第一轮论文审稿。
苹果的这篇论文,无疑,是其中最引人瞩目的“明星”之一。
然而,当阶跃星辰的研究员Lei Yang,试图,在自己的机器上,去复现这篇论文所宣称的、惊人的实验结果时,他发现了一系列,令人匪夷所思的“Bug”。
-
第一个“Bug”:官方的代码,竟然,漏掉了最核心的“图片输入”环节。
-
在修复了这个低级得,近乎于“不可思议”的错误之后,Lei Yang发现,模型的测试准确率,非但没有提升,反而,出现了“断崖式的暴跌”。
-
-
第二个,也是更致命的“Bug”:在好奇心的驱使下,他随机地抽查了该论文所使用的基准测试集中的20道题目。
-
其结果,是惊人的:在这20道题目中,竟然,有多达6道题的“正确答案”标签(Ground Truth),本身,就是错误的。
-
据此,他,做出了一个大胆的、却又合乎逻辑的估算:整个基准测试集的Ground Truth,其整体的错误率,可能高达30%。
-
这意味着,苹果的这个“小模型”,之所以能够“超越GPT-5”,其原因,可能并非是其算法本身,有多么先进。
而仅仅是,因为它在一个充满了“错误答案”的“考卷”上,“猜”中了更多的“错误答案”而已。
在GitHub上提交了Issue,并仅仅,收到了两句敷衍的回复,该Issue便被迅速关闭之后,Lei Yang,选择了将整个事件,公之于众。
他,撰写了一篇长文,向ICLR的匿名审稿人们,发出了紧急的示警。
这篇帖子,迅速地,在X(前身为Twitter)等全球性的学术社区中,引发了剧烈的“地震”。
面对这场愈演愈烈的、公开的学术信誉危机,论文的作者团队,在第二天,便紧急地,做出了回应。
他们,公开地,承认了其“数据自动生成流程中,存在缺陷”,并紧急地,上传了一个修正过后的、全新的基准测试集版本。
同时,他们,也承诺,将重新地,运行所有的实验,并更新其论文中的所有结果。
爱力方的分析认为,这起由苹果公司,亲自“主演”的学术“翻车”事件,其意义,已远超一次简单的、关于“实验严谨性”的讨论。
它,更像是一声响亮的、面向整个AI研究领域的警钟。它,深刻地,揭示了在AI大模型时代,一种全新的、也可能是更危险的、科研范式的内在脆弱性:
当我们,日益地,依赖AI,去“自动地”,生成和标注,我们用来评估其他AI的、海量的“数据集”时,我们,如何,来确保,这些“数据集”本身,其质量的可靠与真实?
当数据集的生产,也变成了一个“黑箱”时,建立在这个“黑箱”之上的、所有的、看似光鲜亮丽的“SOTA”(State-of-the-Art,即当前最佳水平)成果,其根基,都将变得,岌岌可危。
正如Lei Yang,在事件发酵后,向所有同行,所发出的那句,充满了善意、也充满了“黑色幽默”的提醒:
“在(花费巨资)复现一篇论文之前,记得,先手动地,去跑一遍它的小样本‘体检’。不要,让那些错误的Ground Truth,浪费掉你宝贵的算力和无数个不眠的通宵。”
在这场AI的“大跃进”中,一个健康的、活跃的、敢于说真话的“社区监督”机制,其价值,或许,比任何一个科技巨头的“金字招牌”,都更为宝贵。
参考资料:https://x.com/diyerxx/status/1994042370376032701