SWE-CI:评估代理通过 CI 维护代码库的能力

发布: (2026年3月8日 GMT+8 16:11)
2 分钟阅读

Source: Hacker News

摘要

大型语言模型(LLM)驱动的代理在自动化软件工程任务(如静态错误修复)方面表现出强大的能力,这一点已在 SWE‑bench 等基准测试中得到验证。然而,在真实世界中,成熟软件的开发通常依赖于复杂的需求变更和长期的功能迭代——这一过程是静态、一次性修复范式所无法捕捉的。

为弥合这一差距,我们提出 SWE‑CI,这是首个基于持续集成(Continuous Integration)循环构建的仓库级基准,旨在将代码生成的评估范式从静态、短期的 功能正确性 转向动态、长期的 可维护性。该基准包含 100 项任务,每项任务平均对应一个跨越 233 天、包含 71 次连续提交的真实代码仓库演化历史。SWE‑CI 要求代理通过数十轮的分析和编码迭代系统性地解决这些任务。SWE‑CI 为评估代理在长期演化过程中维持代码质量的能力提供了宝贵的洞察。

0 浏览
Back to Blog

相关文章

阅读更多 »

首例飞机致命事故

托马斯·塞尔弗里奇——动力航空史上的首位死亡者 1908年9月17日傍晚,一名年轻的美国军官托马斯·塞尔弗里奇爬进了一架…