SWE-CI：评估代理通过 CI 维护代码库的能力

发布: 2天前 (2026年3月8日 GMT+8 16:11)

2 分钟阅读

Source: Hacker News

摘要

大型语言模型（LLM）驱动的代理在自动化软件工程任务（如静态错误修复）方面表现出强大的能力，这一点已在 SWE‑bench 等基准测试中得到验证。然而，在真实世界中，成熟软件的开发通常依赖于复杂的需求变更和长期的功能迭代——这一过程是静态、一次性修复范式所无法捕捉的。

为弥合这一差距，我们提出 SWE‑CI，这是首个基于持续集成（Continuous Integration）循环构建的仓库级基准，旨在将代码生成的评估范式从静态、短期的 功能正确性 转向动态、长期的 可维护性。该基准包含 100 项任务，每项任务平均对应一个跨越 233 天、包含 71 次连续提交的真实代码仓库演化历史。SWE‑CI 要求代理通过数十轮的分析和编码迭代系统性地解决这些任务。SWE‑CI 为评估代理在长期演化过程中维持代码质量的能力提供了宝贵的洞察。

SWE-CI：评估代理通过 CI 维护代码库的能力

摘要

相关文章

看起来 “JVG algorithm” 只在极小的数字上获胜

“JVG算法”仅在极小数字上获胜

扎克伯格已“结束”与亚历山大·王的合作

首例飞机致命事故