[논문] Asuka-Bench: 불명확한 사용자 의도와 다중 라운드 정제를 위한 코드 에이전트 벤치마크

발행: 6일 전 (2026년 6월 4일 PM 06:24 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.05920v1

개요

기존 코드 생성 벤치마크는 완전한 프롬프트 하나에 대한 일회성 출력을 점수화합니다. 하지만 실제 웹 개발은 다릅니다. 사용자는 처음부터 전체 사양을 작성하는 경우가 드물고, 많은 요구사항은 중간 결과물을 확인하고 그에 반응하면서 비로소 명확해집니다. 우리는 Asuka-Bench를 제안합니다. 이 벤치마크는 명확히 정의되지 않은 사용자 의도와 다회차 정제를 결합하고, 브라우저에서 렌더링된 동작을 기반으로 합니다. 각 작업은 폐쇄 루프를 통해 해결됩니다: Code Agent가 웹 프로젝트를 생성하고, UI Agent가 배포된 사이트에서 테스트 케이스를 실행하며, User LLM이 평가 결과를 다음 라운드에 사용할 자연어 피드백으로 변환합니다. 벤치마크는 50개의 웹 작업, 784개의 평가 기준, 2,402개의 기대 결과를 포함합니다. 우리는 2개의 에이전트 프레임워크에서 8개의 LLM을 평가했습니다. 결과는 모델을 명확히 구분합니다—가중 작업 성공률이 38%포인트 차이로 변동하고, 모델마다 피드백을 통한 복구 능력에서도 큰 차이를 보입니다. Asuka-Bench는 아직 포화 상태가 아니며, 가장 강력한 모델조차 3라운드 후에 전체 프로젝트의 52%만 완료합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.SE
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 시사점

본 연구는 cs.SE 분야의 발전에 기여합니다.

저자

Xin Wang
Liangtai Sun
Yaoming Zhu
Shuang Zhou
Jiaxing Liu
Fengjiao Chen
Lin Qiu
Xuezhi Cao
Xunliang Cai
Licheng Zhang
Zhendong Mao

논문 정보

arXiv ID: 2606.05920v1
Categories: cs.SE, cs.CL
Published: 2026년 6월 4일
PDF: PDF 다운로드

[논문] Asuka-Bench: 불명확한 사용자 의도와 다중 라운드 정제를 위한 코드 에이전트 벤치마크

개요

주요 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 언임베딩 매트릭스가 텍스트 임베딩의 비밀 렌즈입니다