[논문] Asuka-Bench: 불명확한 사용자 의도와 다중 라운드 정제를 위한 코드 에이전트 벤치마크
Source: arXiv - 2606.05920v1
개요
기존 코드 생성 벤치마크는 완전한 프롬프트 하나에 대한 일회성 출력을 점수화합니다. 하지만 실제 웹 개발은 다릅니다. 사용자는 처음부터 전체 사양을 작성하는 경우가 드물고, 많은 요구사항은 중간 결과물을 확인하고 그에 반응하면서 비로소 명확해집니다. 우리는 Asuka-Bench를 제안합니다. 이 벤치마크는 명확히 정의되지 않은 사용자 의도와 다회차 정제를 결합하고, 브라우저에서 렌더링된 동작을 기반으로 합니다. 각 작업은 폐쇄 루프를 통해 해결됩니다: Code Agent가 웹 프로젝트를 생성하고, UI Agent가 배포된 사이트에서 테스트 케이스를 실행하며, User LLM이 평가 결과를 다음 라운드에 사용할 자연어 피드백으로 변환합니다. 벤치마크는 50개의 웹 작업, 784개의 평가 기준, 2,402개의 기대 결과를 포함합니다. 우리는 2개의 에이전트 프레임워크에서 8개의 LLM을 평가했습니다. 결과는 모델을 명확히 구분합니다—가중 작업 성공률이 38%포인트 차이로 변동하고, 모델마다 피드백을 통한 복구 능력에서도 큰 차이를 보입니다. Asuka-Bench는 아직 포화 상태가 아니며, 가장 강력한 모델조차 3라운드 후에 전체 프로젝트의 52%만 완료합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.SE
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 시사점
본 연구는 cs.SE 분야의 발전에 기여합니다.
저자
- Xin Wang
- Liangtai Sun
- Yaoming Zhu
- Shuang Zhou
- Jiaxing Liu
- Fengjiao Chen
- Lin Qiu
- Xuezhi Cao
- Xunliang Cai
- Licheng Zhang
- Zhendong Mao
논문 정보
- arXiv ID: 2606.05920v1
- Categories: cs.SE, cs.CL
- Published: 2026년 6월 4일
- PDF: PDF 다운로드