研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测试中被判定为“通过”的 AI 代码解决方案中,大约一半在实际项目维护者审核时会被拒绝,这意味着自动化评测结果与真实工程质量之间存在明显差距。
SWE-bench Verified 长期被视为 AI 辅助软件工程的重要评估标准之一,用于测试模型是否能够解决开源项目中的真实编程问题,并通过自动化测试验证代码修改是否通过项目测试套件。包括 Anthropic 和 OpenAI 在内的多家 AI 公司也经常引用这一基准成绩展示模型能力进展。
研究团队还对“任务时间跨度”进行了估算分析:按 SWE-bench 自动评估结果推算,Claude4.5Sonnet 完成达到50% 成功率的任务需要约50分钟的人类工作量,而按维护者评分计算仅约8分钟,意味着基准测试可能存在高达约7倍的能力高估。
不过研究人员同时强调,该研究并不意味着 AI 编程代理能力存在根本性上限。通过更好的提示策略、更多人工反馈或多轮迭代,自动评估与人工评审之间的差距仍可能缩小。此外,实验环境也与真实开发流程存在差异,例如 AI 代理只有一次提交机会,而人类开发者通常可以根据反馈不断修改代码。
总体而言,该研究指出,单纯依赖基准测试分数评估 AI 编程代理的实际效用可能产生系统性偏差。随着 AI 编码模型快速迭代,如何构建更接近真实开发环境的评估体系,正成为 AI 软件工程领域的重要研究方向。