SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

作者： Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan (2024)

领域

评估应用

TLDR（中文）

用 12 个真实 Python 仓库 2294 个 issue 评测代码模型"端到端解决 bug"的能力。一夜成为 coding agent 行业标准评测，几乎每篇 coding agent 论文都报 SWE-bench 分数。

TLDR (English)

Uses 12 real Python repos with 2294 issues to evaluate code models' "end-to-end bug solving" capability. Overnight became coding agent industry standard benchmark; almost every coding agent paper reports SWE-bench scores.

出现在这些文章里

代码生成：模型如何写程序
Code Generation: How Models Write Programs

同被引用

这些论文与本文出现在同一篇文章中

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

领域

TLDR（中文）

TLDR (English)

出现在这些文章里

同被引用

相关论文