SWE-CI: CI를 통한 코드베이스 유지 관리에서 에이전트 역량 평가

발행: 2일 전 (2026년 3월 8일 PM 05:11 GMT+9)

3 분 소요

Source: Hacker News

Abstract

대형 언어 모델(LLM) 기반 에이전트는 SWE-bench와 같은 벤치마크에서 정적 버그 수정과 같은 소프트웨어 엔지니어링 작업을 자동화하는 강력한 능력을 입증했습니다. 그러나 실제 세계에서는 성숙한 소프트웨어 개발이 일반적으로 복잡한 요구사항 변경과 장기적인 기능 반복에 기반합니다—이는 정적이고 한 번에 수행되는 수리 패러다임으로는 포착할 수 없는 과정입니다.

이 격차를 메우기 위해 우리는 SWE-CI를 제안합니다. 이는 지속적 통합(CI) 루프를 기반으로 구축된 최초의 레포지토리 수준 벤치마크로, 코드 생성 평가 패러다임을 정적이고 단기적인 기능 정확성에서 동적이고 장기적인 유지보수성으로 전환하는 것을 목표로 합니다. 이 벤치마크는 100개의 작업으로 구성되며, 각각은 평균적으로 실제 코드 레포지토리에서 233일에 걸친 71개의 연속 커밋을 포함하는 진화 이력을 대응합니다. SWE-CI는 에이전트가 수십 차례에 걸친 분석 및 코딩 반복을 통해 이러한 작업을 체계적으로 해결하도록 요구합니다. SWE-CI는 에이전트가 장기 진화 과정에서 코드 품질을 얼마나 잘 유지할 수 있는지에 대한 귀중한 통찰을 제공합니다.

SWE-CI: CI를 통한 코드베이스 유지 관리에서 에이전트 역량 평가

Abstract

관련 글

‘JVG algorithm’은 작은 수에서만 이기는 것처럼 보인다

JVG algorithm은 작은 수에서만 이긴다

Zuckerberg는 Alexandr Wang과 “끝냈다”

첫 비행기 사망 사고