中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误

中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误

爱力方

爱力方

2025年12月01日 15:24
本文共计1549个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

人工智能(AI)的这场全球“军备竞赛”中,一篇来自科技巨头苹果公司的、高调宣称其“小模型,在视觉推理能力上,已超越GPT-5”的重磅论文,正以一种意想不到的、近乎于“公开处刑”的方式,迅速地,沦为了一场学术界的闹剧。

而戳穿这件“皇帝新衣”的,并非另一家科技巨头,也不是某位匿名的审稿人。

仅仅是,来自中国AI初创公司“阶跃星辰”的一位普通研究员Lei Yang,在GitHub上,提交的一个,再也普通不过的Issue

image.png

这场风暴的起点,是全球最顶级的AI学术会议ICLR 2025,刚刚结束的第一轮论文审稿。

苹果的这篇论文,无疑,是其中最引人瞩目的“明星”之一。

然而,当阶跃星辰的研究员Lei Yang,试图,在自己的机器上,去复现这篇论文所宣称的、惊人的实验结果时,他发现了一系列,令人匪夷所思的“Bug”。

  • 第一个“Bug”:官方的代码,竟然,漏掉了最核心的“图片输入”环节。

    • 在修复了这个低级得,近乎于“不可思议”的错误之后,Lei Yang发现,模型的测试准确率,非但没有提升,反而,出现了“断崖式的暴跌”。

  • 第二个,也是更致命的“Bug”:在好奇心的驱使下,他随机地抽查了该论文所使用的基准测试集中的20道题目。

    • 其结果,是惊人的:在这20道题目中,竟然,有多达6道题的“正确答案”标签(Ground Truth),本身,就是错误的

    • 据此,他,做出了一个大胆的、却又合乎逻辑的估算:整个基准测试集的Ground Truth,其整体的错误率,可能高达30%。

这意味着,苹果的这个“小模型”,之所以能够“超越GPT-5”,其原因,可能并非是其算法本身,有多么先进。

而仅仅是,因为它在一个充满了“错误答案”的“考卷”上,“猜”中了更多的“错误答案”而已。

在GitHub上提交了Issue,并仅仅,收到了两句敷衍的回复,该Issue便被迅速关闭之后,Lei Yang,选择了将整个事件,公之于众。

他,撰写了一篇长文,向ICLR的匿名审稿人们,发出了紧急的示警。

这篇帖子,迅速地,在X(前身为Twitter)等全球性的学术社区中,引发了剧烈的“地震”。

面对这场愈演愈烈的、公开的学术信誉危机,论文的作者团队,在第二天,便紧急地,做出了回应。

他们,公开地,承认了其“数据自动生成流程中,存在缺陷”,并紧急地,上传了一个修正过后的、全新的基准测试集版本。

同时,他们,也承诺,将重新地,运行所有的实验,并更新其论文中的所有结果。

爱力方的分析认为,这起由苹果公司,亲自“主演”的学术“翻车”事件,其意义,已远超一次简单的、关于“实验严谨性”的讨论。

它,更像是一声响亮的、面向整个AI研究领域的警钟。它,深刻地,揭示了在AI大模型时代,一种全新的、也可能是更危险的、科研范式的内在脆弱性:

当我们,日益地,依赖AI,去“自动地”,生成和标注,我们用来评估其他AI的、海量的“数据集”时,我们,如何,来确保,这些“数据集”本身,其质量的可靠与真实?

当数据集的生产,也变成了一个“黑箱”时,建立在这个“黑箱”之上的、所有的、看似光鲜亮丽的“SOTA”(State-of-the-Art,即当前最佳水平)成果,其根基,都将变得,岌岌可危。

正如Lei Yang,在事件发酵后,向所有同行,所发出的那句,充满了善意、也充满了“黑色幽默”的提醒:

“在(花费巨资)复现一篇论文之前,记得,先手动地,去跑一遍它的小样本‘体检’。不要,让那些错误的Ground Truth,浪费掉你宝贵的算力和无数个不眠的通宵。”

在这场AI的“大跃进”中,一个健康的、活跃的、敢于说真话的“社区监督”机制,其价值,或许,比任何一个科技巨头的“金字招牌”,都更为宝贵。

参考资料:https://x.com/diyerxx/status/1994042370376032701

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯