[논문] 판사 그 이상: 크라우드소싱 테스트 평가에서 에이전트‑인간 상호작용에 대한 실증 연구
Source: arXiv - 2606.06301v1
개요
에이전시 AI가 소프트웨어 엔지니어링 워크플로에 점점 더 많이 통합되고 있다. 그러나 크라우드소싱 테스트에서는 제출된 보고서의 양이 많고 품질이 고르지 않아 개발자에게 여전히 큰 검토 부담이 있다. 이전 연구에서는 LLM‑as‑a‑Judge 패러다임을 기반으로 한 다중 에이전트 평가 백본을 개발·검증하였다. 이 백본은 보고서를 텍스트성, 충분성, 경쟁력이라는 세 차원에서 평가하며, 인간 합의와 잘 일치하면서도 평가 노력을 크게 줄이는 것으로 나타났다. 하지만 신뢰할 수 있는 자동 판단만으로는 에이전트 출력이 워크플로에 삽입될 때 인간 작업을 실제로 향상시킬 수 있는지는 알 수 없다. 본 논문은 크라우드소싱 테스트 환경에서 그 누락된 질문을 탐구한다. 우리는 평가 기반의 실행 가능한 피드백이 테스터가 보고서를 수정하는 방식, 이후 과제 수행, 그리고 애플리케이션 간 보고 관행 전이에 어떻게 영향을 미치는지를 조사한다. 이를 위해 세 가지 실제 애플리케이션에 걸쳐 20명의 테스터를 대상으로 네 단계에 걸친 통제된 인간 실험을 수행하였다. 결과는 에이전트가 생성한 피드백이 수정된 보고서의 즉각적인 개선, 이전 피드백 노출 후 새로운 과제에 대한 첫 제출물의 향상, 그리고 이후 애플리케이션으로의 부분적이지만 의미 있는 전이를 지원함을 보여준다. 17명의 참여자가 작성한 사후 설문지는 이러한 아티팩트 기반 결과를 보완하며, 피드백이 전반적으로 이해하기 쉬웠고 수정에 활용되었으며 이후 과제에도 반영되었지만, 구체성 및 실행 측면에서 여전히 마찰이 존재함을 시사한다. 전반적으로, 본 연구는 조사된 크라우드소싱 테스트 환경에서 평가 에이전트가 사후 판단자뿐 아니라 워크플로에 통합된 피드백 제공자로서 보고서 품질 향상을 지원할 수 있다는 실증적 증거를 제공한다.
핵심 기여
본 논문은 다음 분야의 연구를 제시한다.
- cs.SE
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 시사점
이 연구는 cs.SE 분야의 발전에 기여한다.
저자
- Yue Wang
- Yuan Zhao
- Shengcheng Yu
- Zhenyu Chen
- Qing Gu
논문 정보
- arXiv ID: 2606.06301v1
- 분류: cs.SE
- 발표일: 2026년 6월 4일
- PDF: Download PDF