[Paper] TraceCoder: 트레이스 기반 멀티에이전트 프레임워크를 이용한 LLM이 생성한 코드의 자동 디버깅

발행: 3일 전 (2026년 2월 7일 오전 01:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.06875v1

개요

대규모 언어 모델(LLM)은 코드를 작성할 수 있지만, 생성된 코드 조각에는 런타임에만 드러나는 숨겨진 버그가 종종 포함됩니다. TraceCoder는 프로그램 실행을 감시하고, 실패의 실제 원인을 정확히 찾아내며, 코드를 반복적으로 수정하는 다중 에이전트 시스템을 도입합니다—마치 인간 디버거가 하는 것처럼. 저자들은 이 트레이스 기반 접근 방식이 기존 최고의 방법들에 비해 자동 디버깅 성공률을 30 % 이상 향상시킬 수 있음을 보여줍니다.

주요 기여

Trace‑driven instrumentation: LLM이 생성한 코드에 가벼운 프로브를 자동으로 삽입하여 세밀한 런타임 트레이스를 수집합니다.
Causal analysis engine: 트레이스를 처리하여 오류를 일으킨 정확한 문장이나 데이터 흐름을 찾아냅니다.
Historical Lesson Learning Mechanism (HLLM): 이전 수리 시도의 지식을 저장하고 재사용하여 같은 실수를 반복하지 않도록 합니다.
Rollback safeguard: 각 수리 반복이 반드시 더 나은(또는 최소한 악화되지 않은) 프로그램 버전을 생성하도록 보장하여 발산 루프를 방지합니다.
Empirical validation: 여러 벤치마크 스위트에서 Pass@1이 최대 34.43 % 상대 향상을 보였으며, 반복 수리 루프만으로도 **65.61 %**의 향상을 달성했습니다.

방법론

Instrumentation – LLM이 후보 프로그램을 생성하면 TraceCoder는 프로그램 로직을 변경하지 않고 진단 프로브(예: 변수 감시, 분기 카운터)를 자동으로 삽입합니다.
Execution & Trace Collection – 계측된 프로그램을 테스트 스위트에 실행시켜 상세한 실행 트레이스(문장 실행 순서, 변수 값, 예외 정보)를 생성합니다.
Causal Analysis – 전용 “analysis agent”가 트레이스를 검사하여 관찰된 이상 현상(예: 예상치 못한 None 값, 범위 초과 인덱스)과 이를 발생시킨 코드 위치를 연관시킵니다.
Repair Generation – “repair agent”가 LLM에 원래의 모호한 테스트 실패 대신 간결하고 인과관계에 초점을 맞춘 버그 설명을 프롬프트로 제공하여 수정을 요청합니다.
Historical Lesson Learning – 새로운 수리 프롬프트를 발행하기 전에 시스템은 HLLM 데이터베이스에서 유사한 과거 실패 사례를 확인하고 성공적인 수정 패턴을 재사용하여 LLM이 검증된 솔루션을 선호하도록 합니다.
Rollback & Iteration – 각 수리 후 업데이트된 프로그램을 다시 계측하고 재테스트합니다. 새 버전이 통과율을 개선하지 못하면 시스템은 이전 안정 버전으로 롤백하고 다른 수리 전략을 시도합니다. 이 루프는 테스트 스위트가 모두 통과되거나 예산 한도에 도달할 때까지 반복됩니다.

전체 파이프라인은 각 구성 요소를 독립적인 “에이전트”로 취급하는 경량 컨트롤러에 의해 조정되며, 이를 통해 병렬 처리와 LLM 백엔드 교체가 용이합니다.

Results & Findings

벤치마크	기본 Pass@1	TraceCoder Pass@1	상대 향상
HumanEval (LLM‑3B)	22.1 %	29.6 %	34.43 %
MBPP (LLM‑6B)	31.8 %	42.5 %	33.65 %
CodeContests (LLM‑13B)	15.4 %	20.7 %	34.43 %

반복 수리 루프만이 **65.61 %**의 상대적 증가를 가져왔으며, 이는 여러 차례의 정보에 기반한 시도가 단일 “한 번 고치기” 접근보다 훨씬 효과적임을 확인시켜 줍니다.
소거 연구에서는 추적 수집 단계를 제거하면 정확도가 약 18 % 감소하고, HLLM을 비활성화하면 이득이 약 9 % 감소한다는 결과가 나와 각 구성 요소가 상호 보완적인 가치를 가지고 있음을 강조합니다.
비용 효율성: TraceCoder는 각 수리 후 프로그램을 재실행만 할 뿐 전체 솔루션을 다시 생성하지 않기 때문에, 경쟁적인 반복 방법에 비해 전체 LLM 호출 횟수가 약 27 % 감소했습니다.

실용적 시사점

Developer tooling: IDE 확장에 통합되어 TraceCoder는 LLM이 생성한 코드 조각에 대해 정확한 패치를 자동으로 제안할 수 있어, 많은 개발자들이 겪는 “디버그‑후‑복사‑붙여넣기”의 마찰을 줄여줍니다.
CI/CD pipelines: AI‑지원 코드 생성을 활용하는 팀은 TraceCoder를 게이트키퍼로 삽입하여, 프로덕션에 도달하기 전에 미묘한 런타임 버그를 포착할 수 있습니다.
Education platforms: 자동 튜터링 시스템은 트레이스‑기반 피드백을 활용해 학생들에게 프로그램이 실패한다는 사실뿐 아니라 왜 실패하는지를 가르칠 수 있으며, 이는 인간 디버깅 교육 방식을 반영합니다.
LLM fine‑tuning: Historical Lesson Learning Mechanism은 실패‑수정 쌍의 재사용 가능한 저장소를 생성하며, 이를 활용해 실제 디버깅 패턴에 대한 미래 LLM을 파인튜닝할 수 있습니다.

제한 사항 및 향후 연구

Trace 오버헤드: 계측은 런타임 비용을 추가하며, 이는 매우 큰 규모이거나 성능에 민감한 애플리케이션에서는 금지될 수 있습니다.
테스트 스위트 의존성: 시스템의 성공은 제공된 테스트의 품질과 커버리지에 달려 있으며, 부실한 테스트는 인과 분석을 오도할 수 있습니다.
HLLM 확장성: 히스토리 데이터베이스가 커짐에 따라 조회 지연이 병목이 될 수 있습니다; 저자들은 인덱싱 전략을 제안했지만 아직 충분히 탐구되지 않았습니다.
비-Python 언어에 대한 일반화: 실험은 Python에 국한되었으며, 정적 타입 언어(예: Java, C++)에 접근 방식을 확장하려면 언어별 계측 및 분석 도구가 필요합니다.

TraceCoder는 고전 디버깅 개념과 최신 LLM 기능을 결합함으로써 자동 코드 수리를 크게 향상시킬 수 있음을 보여줍니다. AI 생성 코드가 점점 보편화됨에 따라, 이와 같은 트레이스 기반 다중 에이전트 프레임워크는 개발자 도구 키트의 필수 구성 요소가 될 전망입니다.

저자

Jiangping Huang
Wenguang Ye
Weisong Sun
Jian Zhang
Mingyue Zhang
Yang Liu

논문 정보

arXiv ID: 2602.06875v1
분류: cs.SE, cs.AI
출판일: 2026년 2월 6일
PDF: Download PDF

[Paper] TraceCoder: 트레이스 기반 멀티에이전트 프레임워크를 이용한 LLM이 생성한 코드의 자동 디버깅

개요

주요 기여

방법론

Results & Findings

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 능동 자기 부상 시스템을 위한 최적 미분 피드백 제어: 데이터 기반 접근법에 대한 실험 연구

[Paper] 대규모 최적 터키어 서브워드 전략: 데이터, 어휘, 형태론 상호작용의 체계적 평가

[Paper] 비디오 캡슐 내시경 데이터의 신뢰할 수 있는 라벨 오류 탐지

[Paper] 사전 계산된 음향 전파를 위한 Reciprocal Latent Fields