资讯

AI代码通过率或被高估7倍基准测试难反映真实能力

2026年03月12日 11:06

本文共计685个字，预计阅读时长3分钟。

来源/aibase 责编/爱力方

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测试中被判定为“通过”的 AI 代码解决方案中，大约一半在实际项目维护者审核时会被拒绝，这意味着自动化评测结果与真实工程质量之间存在明显差距。

SWE-bench Verified 长期被视为 AI 辅助软件工程的重要评估标准之一，用于测试模型是否能够解决开源项目中的真实编程问题，并通过自动化测试验证代码修改是否通过项目测试套件。包括 Anthropic 和 OpenAI 在内的多家 AI 公司也经常引用这一基准成绩展示模型能力进展。

研究团队还对“任务时间跨度”进行了估算分析:按 SWE-bench 自动评估结果推算，Claude4.5Sonnet 完成达到50% 成功率的任务需要约50分钟的人类工作量，而按维护者评分计算仅约8分钟，意味着基准测试可能存在高达约7倍的能力高估。

不过研究人员同时强调，该研究并不意味着 AI 编程代理能力存在根本性上限。通过更好的提示策略、更多人工反馈或多轮迭代，自动评估与人工评审之间的差距仍可能缩小。此外，实验环境也与真实开发流程存在差异，例如 AI 代理只有一次提交机会，而人类开发者通常可以根据反馈不断修改代码。

总体而言，该研究指出，单纯依赖基准测试分数评估 AI 编程代理的实际效用可能产生系统性偏差。随着 AI 编码模型快速迭代，如何构建更接近真实开发环境的评估体系，正成为 AI 软件工程领域的重要研究方向。

来源：基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍 | AIbase

声明：本文来自aibase，版权归作者所有。文章内容仅代表作者独立观点，不代表A³·爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: AI编程基准测试代码质量软件开发人工智能

热门资讯

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

匿名

2026-02-10

·

5234 浏览
微软研究高温超导技术破解数据中心供电难题

匿名

2026-02-11

·

1327 浏览
美国一家人形机器人企业突发倒闭

机器人大讲堂

2026-02-11

·

1252 浏览
海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

匿名

2026-02-10

·

1000 浏览
顶级风投布局AI虚拟人与实时互动影像生成赛道

匿名

2026-02-10

·

96 浏览
Notion 集成 MiniMax M2.5 打造高性价比 AI 办公生态

匿名

2026-03-02

·

94 浏览

通知

尊敬的用户

user

资讯

AI代码通过率或被高估7倍基准测试难反映真实能力

相关图文

智元AWE2026亮相文娱商演生产力引关注

2026年人形机器人投资热潮持续升温

黄仁勋称AI基建将创造万亿市场高薪技工需求激增

2026AWE前瞻：AI家电领衔大模型养龙虾机器人智能眼镜登场

AI推动存储行业变革高管预计涨价将成常态

Meta拟2027年前推出四代自研AI芯片

热门资讯

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

微软研究高温超导技术破解数据中心供电难题

美国一家人形机器人企业突发倒闭

海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

顶级风投布局AI虚拟人与实时互动影像生成赛道

Notion 集成 MiniMax M2.5 打造高性价比 AI 办公生态

快讯

乌克兰前线首次部署人形机器人参战

国家工业信息安全中心预警工业领域OpenClaw风险

AI冲击理财业养虾潮引发职业焦虑

岩山科技亮相AWE2026 七成AI能力将实现本地运行

邬贺铨院士称高速RDMA为算力大动脉国产IB技术突破垄断补短板

特斯拉获英国电力供应牌照能源业务再扩张

欧洲车企加速布局新能源车产能应对激烈竞争

王小川称OpenClaw尚未普及智能体安全风险或2026年集中爆发

爱诗科技C轮融资落地全球首发实时世界模型

AI芯片龙头业绩创新高主力产品今年或迎爆发

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

AI代码通过率或被高估7倍 基准测试难反映真实能力

相关图文

智元AWE2026亮相 文娱商演生产力引关注

2026年人形机器人投资热潮持续升温

黄仁勋称AI基建将创造万亿市场 高薪技工需求激增

2026AWE前瞻：AI家电领衔 大模型养龙虾 机器人智能眼镜登场

AI推动存储行业变革 高管预计涨价将成常态

Meta拟2027年前推出四代自研AI芯片

热门资讯

豆包亮相春晚 送出超10万份科技礼品及8888元现金红包

微软研究高温超导技术破解数据中心供电难题

美国一家人形机器人企业突发倒闭

海外推特热议，冯骥惊叹“庆幸Seedance是中国的AI”

顶级风投布局AI虚拟人与实时互动影像生成赛道

Notion 集成 MiniMax M2.5 打造高性价比 AI 办公生态

快讯

乌克兰前线首次部署人形机器人参战

国家工业信息安全中心预警工业领域OpenClaw风险

AI冲击理财业 养虾潮引发职业焦虑

岩山科技亮相AWE2026 七成AI能力将实现本地运行

邬贺铨院士称高速RDMA为算力大动脉 国产IB技术突破垄断补短板

特斯拉获英国电力供应牌照 能源业务再扩张

欧洲车企加速布局新能源车产能应对激烈竞争

王小川称OpenClaw尚未普及 智能体安全风险或2026年集中爆发

爱诗科技C轮融资落地 全球首发实时世界模型

AI芯片龙头业绩创新高 主力产品今年或迎爆发

推荐专栏

爱力方

机器人大讲堂

下一篇

AI代码通过率或被高估7倍基准测试难反映真实能力

智元AWE2026亮相文娱商演生产力引关注

黄仁勋称AI基建将创造万亿市场高薪技工需求激增

2026AWE前瞻：AI家电领衔大模型养龙虾机器人智能眼镜登场

AI推动存储行业变革高管预计涨价将成常态

豆包亮相春晚送出超10万份科技礼品及8888元现金红包

AI冲击理财业养虾潮引发职业焦虑

邬贺铨院士称高速RDMA为算力大动脉国产IB技术突破垄断补短板

特斯拉获英国电力供应牌照能源业务再扩张

王小川称OpenClaw尚未普及智能体安全风险或2026年集中爆发

爱诗科技C轮融资落地全球首发实时世界模型

AI芯片龙头业绩创新高主力产品今年或迎爆发