GoForum🌐 V2EX

OpenAI 自废 SWE-bench Verified:基准污染后, AI 编程分数还能信吗?

Zane3 · 2026-02-25 11:27 · 0 次点赞 · 0 条回复

先说结论:跑分看个参考就行,别太当真。

OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题:

问题一:数据污染

SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案:

  • GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名
  • Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码
  • Gemini 3 Flash:只给任务 ID ,就输出逐字匹配的完整 diff

这不是能力强,是背过答案。

问题二:测试设计缺陷

审计了 138 道题(约 28%),每题至少 6 名工程师独立审查:

  • 59.4% 存在测试设计缺陷
  • 35.5% 是「窄测试」:强制检查特定实现细节,比如测试直接 import 一个特定函数名
  • 18.8% 是「宽测试」:检查了题目描述之外的功能

SWE-bench Verified vs Pro

维度 Verified Pro
题量 500 1865
语言 Python Python/Go/TS/JS
平均改动量 11 行 107 行
仓库数 12 41

同一批模型:Verified ~80%,Pro ~43-50%。分数腰斩。

原文: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: Zane3
发布: 2026-02-25
点赞: 0
回复: 0