[논문] ADK 아레나: LLM‑as‑a‑Developer를 통한 에이전트 개발 키트 평가

발행: (2026년 6월 4일 AM 10:00 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.05548v1

개요

LLM 기반 자율 에이전트를 구축하기 위한 SDK 수준 프레임워크인 Agent Development Kit(ADK)의 급속한 확산은 프레임워크 선택이 에이전트 성능에 미치는 영향을 실증적으로 이해하는 속도를 앞질렀다. 우리는 LLM-as-a-Developer라는 방법론을 제안한다. 이 방법론은 인간 개발자를 LLM 코딩 에이전트로 대체하여, 문서에서 각 프레임워크의 API를 학습하고, 에이전트 코드를 작성한 뒤, 테스트가 통과할 때까지 검증‑피드백 루프를 통해 반복적으로 수정한다. 개발자를 고정하고 프레임워크만을 변화시킴으로써, 생성 노력은 API 사용성에 대한 정량적 프록시가 되고, 결과 에이전트는 프레임워크 효율성을 통제된 방식으로 측정한다. 우리는 이를 ADK Arena에 구현했으며, 프레임워크별 Docker 격리, 3단계 검증 파이프라인, 그리고 SWE-bench, $τ^2$-bench, Terminal-Bench, MCP-Atlas에 대한 벤치마크 어댑터를 제공한다. 51개의 인기 Python ADK 프레임워크(204개의 에이전트‑벤치마크 쌍)를 평가한 결과는 다음과 같다: (1) 생성이 57 %의 실행에서 성공했으며, 비용은 프레임워크마다 5.6배 차이($0.6~$3.4 per agent)로 API 복잡성의 정량적 프록시가 된다. 다만 비용만으로 성공을 예측할 수는 없다; (2) 단일 프레임워크가 지배적이지 않다: 최고 성능을 보인 단일‑벤치마크 ADK 에이전트는 작업의 최대 80 %를 해결하고, 일반 목적 최첨단 코딩 에이전트를 비용의 일부만으로도 능가할 수 있지만, 중간값 프레임워크는 32 %만 해결한다; (3) 정보원 차단 실험 전반에 걸쳐 실제 프레임워크 사용 비율은 28 %~40 %의 좁은 구간에 머물며(원본 소스 접근 시 가장 높고, 참고 자료가 전혀 없을 때도 33 %), 이는 문서, 소스 코드, 파라메트릭 지식이 서로 대체 가능하며 어느 하나가 절대적인 병목이 아님을 시사한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다.

  • cs.SE
  • cs.AI

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.SE 분야의 발전에 기여한다.

저자

  • Jintao Huang
  • Xiaomin Li
  • Gaurav Mittal
  • Yu Hu

논문 정보

  • arXiv ID: 2606.05548v1
  • 분류: cs.SE, cs.AI
  • 발표일: 2026년 6월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »