Meta首席AI科学家揭露Llama 4发布前伪造测试数据，引发行业震动-A³·爱力方

这或许是开源人工智能历史上，最黑暗、也最令人警醒的一刻。当Meta首席AI科学家、图灵奖得主Yann LeCun——这位被视为整个AI领域灵魂人物之一的巨擘——在接受《金融时报》采访，并亲口承认Llama 4发布前曾系统性地篡改基准测试结果时，一个曾经星光熠熠的AI帝国，其信任的基石，正在以一种无可挽回的方式，轰然崩塌。

这不再是关于技术路线的争议，也不是一次无伤大雅的营销夸大。这是一场深刻的、触及科学研究最根本底线的诚信危机。Llama 4，这个本应是Meta开源荣耀延续的“太子”，如今却成为了其难以洗刷的耻辱烙印。

而这场由“跑分”引发的地震，其震波早已超越了技术层面。它直接导致了创始人马克·扎克伯格的震怒、整个GenAI团队被边缘化、核心成员大量出走，乃至LeCun本人也宣布即将离职。Meta，正为其在追求亮眼数据时所走的“捷径”，付出最惨痛的代价。

从“开源宠儿”到“行业弃子”：一场被戳破的皇帝新衣

Llama系列，曾经是Meta在AI世界中最引以为傲的王牌。从Llama 1到3，它以卓越的性能与彻底的开放姿态，赢得了全球开发者社区的广泛赞誉与尊重，被视为能够与OpenAI、Google等闭源巨头抗衡的最强力量。

然而，这一切的荣光，在2025年4月Llama 4发布的那一刻，戛然而止。

Meta当时高调宣称，Llama 4在多项基准测试中取得了“极其优秀”的表现。但当模型一经发布，全球无数开发者涌入进行实测后，一个令人尴尬的共识迅速形成：它的实际性能，远低于Meta的官方宣传。

起初，外界的质疑还停留在“Meta可能在测试中使用了某些技巧”，而Meta官方也一度矢口否认。但随着时间的推移，Llama系列陷入了诡异的停滞，Meta的战略重心也开始明显地向闭源的商业模型倾斜。社区的信任，在沉默与失望中，被一点点消磨殆尽。

直到LeCun的这次专访，才如同晴天霹雳，将那件早已被众人怀疑的“皇帝新衣”，彻底撕得粉碎。

LeCun坦言，为了在发布时拿出一份足够亮眼的“成绩单”，团队采取了不光彩的手段：针对不同的测试项目，使用了不同的、经过特别优化的模型版本，并将这些“单科冠军”的成绩，拼凑成一个看似无所不能的“全能冠军”。

扎克伯格的愤怒与团队的溃败

这场“造假门”，在Meta内部引发了一场剧烈的政治风暴。据称，马克·扎克伯格对此感到极度愤怒。

他愤怒的，或许不仅是技术的失败，更是这种短视的、破坏公司声誉的行为，让他对整个GenAI团队的核心价值观，产生了根本性的不信任。

其后果是直接而残酷的：整个GenAI团队被迅速边缘化，许多参与Llama 4发布的核心成员，在随后的几个月里，纷纷选择黯然离开。 而Yann LeCun这位在Meta工作了整整十年、被视为公司AI精神领袖的元老，也最终走到了离职的终点。

一个曾经战功赫赫、被寄予厚望的王牌军团，就这样在一次拙劣的“数据操纵”中，走向了分崩离析。

远瞻：一场关于“衡量标准”的深刻反思

Llama 4的溃败，其意义远超于Meta一家公司的内部动荡。它如同一面镜子，映照出整个AI行业，在过去数年间，那种愈演愈烈的、对“基准测试跑分”的病态崇拜。

当“跑分”成为衡量模型优劣的唯一标准，成为获取融资、吸引人才、赢得媒体关注的终极武器时，它便不可避免地会诱导团队走上“为考试而学习”的歧途，甚至不惜为此采取学术不端的行为。

这场丑闻，将迫使整个行业进行一次痛苦而必要的深刻反思：

我们应该如何更科学、更全面地衡量一个AI模型的真实能力？
除了那些冰冷的、可被“优化”的数字，我们是否应该更关注模型在真实世界应用中的鲁棒性、安全性与可信赖性？
在追求技术进步的无尽道路上，我们又该如何坚守那条最基础、也最脆弱的诚信底线？

Llama 4的故事，将作为一个惨痛的教训，被长久地写入人工智能的发展史。它警示着所有从业者：任何试图绕过科学诚信的“捷径”，其终点，都通向信任的悬崖。而一旦坠落，即便是像Meta这样的科技帝国，也可能面临万劫不复的深渊。

通知

尊敬的用户

user

Meta首席AI科学家揭露Llama 4发布前伪造测试数据，引发行业震动

爱力方

从“开源宠儿”到“行业弃子”：一场被戳破的皇帝新衣

扎克伯格的愤怒与团队的溃败

远瞻：一场关于“衡量标准”的深刻反思

相关图文

三位中国小伙创立的AI公司被扎克伯格以140亿元收购三年估值暴涨142倍面临“套壳”质疑

Meta AI发布Pixio图像模型，以像素重建技术突破3D重建新纪录

意大利叫停Meta封禁WhatsApp AI 欧盟启动反垄断调查

意大利叫停Meta封杀第三方AI聊天条款

扎克伯格与Meta新AI主管半年内关系破裂

Anthropic旗舰模型Claude Opus4.5刷新长任务处理纪录

热门资讯

非遗科技赋能泾渭茯茶成优选

特斯拉Model 3车主实现全程自动驾驶横穿美国无人驾驶出租车或将到来

Perplexity推出BrowseSafe 护航AI浏览器代理安全

众筹失败反获特斯拉订单 Manus逆袭成供应商

罗福莉加入小米首秀：中国AI模型与顶尖差距缩短至数月，出身农村家庭曾获雷军千万元年薪

阿里Qwen推出新一代图像编辑模型，人物一致性显著增强

快讯

鑫源汽车与白犀牛合资落地联手打造无人驾驶厢式车抢滩万亿无人配送市场

3月汽车产销回暖环比大涨74.4% 新能源车出口增长1.3倍

睿尔曼发布全球首个官方AI原生机械臂，构建从开发层到服务层的AI全链路智能体验

发布龙虾湖+词元工厂联想中国基础设施业务加速打造企业AI标杆方案

工信部：加快构建高效统一的人工智能芯片计算互联生态，坚决破除光伏行业“内卷式”竞争

3月PPI同比回正：芯片产业链价格上涨，光纤制造出厂价格同比上涨76.1%专家解读

中汽协：一季度汽车产销环比升同比降合资承压明显整体释放向好信号

阿里云押注世界模型，清华系AI公司生数科技完成近20亿元B轮融资

短剧行业震荡：红果合并真人与AI榜单，AI仿真人剧热度首次超过实拍剧

网易智企发布“帝王蟹”企业AI Agent产品，提升企业AI应用可控性与安全性

推荐专栏

爱力方

机器人大讲堂

下一篇

user

Meta首席AI科学家揭露Llama 4发布前伪造测试数据，引发行业震动

爱力方

从“开源宠儿”到“行业弃子”：一场被戳破的皇帝新衣

扎克伯格的愤怒与团队的溃败

远瞻：一场关于“衡量标准”的深刻反思

相关图文

三位中国小伙创立的AI公司被扎克伯格以140亿元收购 三年估值暴涨142倍 面临“套壳”质疑

Meta AI发布Pixio图像模型，以像素重建技术突破3D重建新纪录

意大利叫停Meta封禁WhatsApp AI 欧盟启动反垄断调查

意大利叫停Meta封杀第三方AI聊天条款

扎克伯格与Meta新AI主管半年内关系破裂

Anthropic旗舰模型Claude Opus4.5刷新长任务处理纪录

热门资讯

非遗科技赋能泾渭茯茶成优选

特斯拉Model 3车主实现全程自动驾驶横穿美国 无人驾驶出租车或将到来

Perplexity推出BrowseSafe 护航AI浏览器代理安全

众筹失败反获特斯拉订单 Manus逆袭成供应商

罗福莉加入小米首秀：中国AI模型与顶尖差距缩短至数月，出身农村家庭曾获雷军千万元年薪

阿里Qwen推出新一代图像编辑模型，人物一致性显著增强

快讯

鑫源汽车与白犀牛合资落地 联手打造无人驾驶厢式车 抢滩万亿无人配送市场

3月汽车产销回暖 环比大涨74.4% 新能源车出口增长1.3倍

睿尔曼发布全球首个官方AI原生机械臂，构建从开发层到服务层的AI全链路智能体验

发布龙虾湖+词元工厂 联想中国基础设施业务加速打造企业AI标杆方案

工信部：加快构建高效统一的人工智能芯片计算互联生态，坚决破除光伏行业“内卷式”竞争

3月PPI同比回正：芯片产业链价格上涨，光纤制造出厂价格同比上涨76.1%专家解读

中汽协：一季度汽车产销环比升同比降 合资承压明显 整体释放向好信号

阿里云押注世界模型，清华系AI公司生数科技完成近20亿元B轮融资

短剧行业震荡：红果合并真人与AI榜单，AI仿真人剧热度首次超过实拍剧

网易智企发布“帝王蟹”企业AI Agent产品，提升企业AI应用可控性与安全性

推荐专栏

爱力方

机器人大讲堂

下一篇

三位中国小伙创立的AI公司被扎克伯格以140亿元收购三年估值暴涨142倍面临“套壳”质疑

特斯拉Model 3车主实现全程自动驾驶横穿美国无人驾驶出租车或将到来

鑫源汽车与白犀牛合资落地联手打造无人驾驶厢式车抢滩万亿无人配送市场

3月汽车产销回暖环比大涨74.4% 新能源车出口增长1.3倍

发布龙虾湖+词元工厂联想中国基础设施业务加速打造企业AI标杆方案

中汽协：一季度汽车产销环比升同比降合资承压明显整体释放向好信号