中国程序员“单挑”苹果：通宵揪出其AI论文30%数据错误，迫使ICLR紧急勘误-A³·爱力方

在人工智能（AI）的这场全球“军备竞赛”中，一篇来自科技巨头苹果公司的、高调宣称其“小模型，在视觉推理能力上，已超越GPT-5”的重磅论文，正以一种意想不到的、近乎于“公开处刑”的方式，迅速地，沦为了一场学术界的闹剧。

而戳穿这件“皇帝新衣”的，并非另一家科技巨头，也不是某位匿名的审稿人。

仅仅是，来自中国AI初创公司“阶跃星辰”的一位普通研究员Lei Yang，在GitHub上，提交的一个，再也普通不过的Issue。

这场风暴的起点，是全球最顶级的AI学术会议ICLR 2025，刚刚结束的第一轮论文审稿。

苹果的这篇论文，无疑，是其中最引人瞩目的“明星”之一。

然而，当阶跃星辰的研究员Lei Yang，试图，在自己的机器上，去复现这篇论文所宣称的、惊人的实验结果时，他发现了一系列，令人匪夷所思的“Bug”。

第一个“Bug”：官方的代码，竟然，漏掉了最核心的“图片输入”环节。
- 在修复了这个低级得，近乎于“不可思议”的错误之后，Lei Yang发现，模型的测试准确率，非但没有提升，反而，出现了“断崖式的暴跌”。
第二个，也是更致命的“Bug”：在好奇心的驱使下，他随机地抽查了该论文所使用的基准测试集中的20道题目。
- 其结果，是惊人的：在这20道题目中，竟然，有多达6道题的“正确答案”标签（Ground Truth），本身，就是错误的。
- 据此，他，做出了一个大胆的、却又合乎逻辑的估算：整个基准测试集的Ground Truth，其整体的错误率，可能高达30%。

这意味着，苹果的这个“小模型”，之所以能够“超越GPT-5”，其原因，可能并非是其算法本身，有多么先进。

而仅仅是，因为它在一个充满了“错误答案”的“考卷”上，“猜”中了更多的“错误答案”而已。

在GitHub上提交了Issue，并仅仅，收到了两句敷衍的回复，该Issue便被迅速关闭之后，Lei Yang，选择了将整个事件，公之于众。

他，撰写了一篇长文，向ICLR的匿名审稿人们，发出了紧急的示警。

这篇帖子，迅速地，在X（前身为Twitter）等全球性的学术社区中，引发了剧烈的“地震”。

面对这场愈演愈烈的、公开的学术信誉危机，论文的作者团队，在第二天，便紧急地，做出了回应。

他们，公开地，承认了其“数据自动生成流程中，存在缺陷”，并紧急地，上传了一个修正过后的、全新的基准测试集版本。

同时，他们，也承诺，将重新地，运行所有的实验，并更新其论文中的所有结果。

爱力方的分析认为，这起由苹果公司，亲自“主演”的学术“翻车”事件，其意义，已远超一次简单的、关于“实验严谨性”的讨论。

它，更像是一声响亮的、面向整个AI研究领域的警钟。它，深刻地，揭示了在AI大模型时代，一种全新的、也可能是更危险的、科研范式的内在脆弱性：

当我们，日益地，依赖AI，去“自动地”，生成和标注，我们用来评估其他AI的、海量的“数据集”时，我们，如何，来确保，这些“数据集”本身，其质量的可靠与真实？

当数据集的生产，也变成了一个“黑箱”时，建立在这个“黑箱”之上的、所有的、看似光鲜亮丽的“SOTA”（State-of-the-Art，即当前最佳水平）成果，其根基，都将变得，岌岌可危。

正如Lei Yang，在事件发酵后，向所有同行，所发出的那句，充满了善意、也充满了“黑色幽默”的提醒：

“在（花费巨资）复现一篇论文之前，记得，先手动地，去跑一遍它的小样本‘体检’。不要，让那些错误的Ground Truth，浪费掉你宝贵的算力和无数个不眠的通宵。”

在这场AI的“大跃进”中，一个健康的、活跃的、敢于说真话的“社区监督”机制，其价值，或许，比任何一个科技巨头的“金字招牌”，都更为宝贵。

参考资料：https://x.com/diyerxx/status/1994042370376032701

通知

尊敬的用户

user

中国程序员“单挑”苹果：通宵揪出其AI论文30%数据错误，迫使ICLR紧急勘误

爱力方

相关图文

攻克低资源语言难关！西藏发布千亿级藏语大模型“阳光清言”，开启系统性研发

英伟达给出具身智能“终极答案”：机器人专用大脑发布，算力+仿真+AI三位一体

智赋具身，领技未来！2025全球开发者先锋大会暨国际具身智能技能大赛媒体通气会召开

撕掉“血汗工厂”标签！富士康攀上谷歌，用机器人书写新叙事

一个季度，两轮数亿融资！他山科技为何成为触觉感知赛道“最热标的”？

快手旗舰 Keye-VL-671B-A37B 重磅发布，多模态推理能力实现新突破

热门资讯

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

从跑酷到叠衣：机器人行业为何集体放弃“炫技”？

2.2亿用户，115亿美元血亏：OpenAI的“万亿帝国”，是梦想还是泡沫？

Pokee AI：核心技术与生态资源驱动的AI Agent平民化浪潮

人形机器人IRON发布：从实验室原型到商业场景的技术跃迁

快讯

消费者购车洽谈遭录音奥迪门店称厂家要求折射经销商返利考核压力

2026年大模型GEO优化服务商标杆企业推荐精选

马云谈AI时代胜负关键：不在芯片在心跳阿里核心高管齐聚云谷论教育

2026年GEO优化服务商Top3推荐：商家AI搜索流量布局指南

中国AI产品创新提速美图RoboNeo登顶巴西App Store分类榜

全国人大代表吴丰礼：建议试点粤港澳大湾区AI制度创新，夯实具身智能工业数据基建

头部酒企新春首课聚焦AI：不转型就出局

千问持续投入AI办事春节完成2亿笔真实订单

追觅科技在浙江新设智能科技公司，注册资本2000万元

霍尔木兹海峡受阻丰田被迫减产4万辆汽车

推荐专栏

爱力方

机器人大讲堂

下一篇