[논문] 판사 그 이상: 크라우드소싱 테스트 평가에서 에이전트‑인간 상호작용에 대한 실증 연구

발행: 6일 전 (2026년 6월 5일 AM 12:39 GMT+9)

4 분 소요

원문: arXiv

Source: arXiv - 2606.06301v1

개요

에이전시 AI가 소프트웨어 엔지니어링 워크플로에 점점 더 많이 통합되고 있다. 그러나 크라우드소싱 테스트에서는 제출된 보고서의 양이 많고 품질이 고르지 않아 개발자에게 여전히 큰 검토 부담이 있다. 이전 연구에서는 LLM‑as‑a‑Judge 패러다임을 기반으로 한 다중 에이전트 평가 백본을 개발·검증하였다. 이 백본은 보고서를 텍스트성, 충분성, 경쟁력이라는 세 차원에서 평가하며, 인간 합의와 잘 일치하면서도 평가 노력을 크게 줄이는 것으로 나타났다. 하지만 신뢰할 수 있는 자동 판단만으로는 에이전트 출력이 워크플로에 삽입될 때 인간 작업을 실제로 향상시킬 수 있는지는 알 수 없다. 본 논문은 크라우드소싱 테스트 환경에서 그 누락된 질문을 탐구한다. 우리는 평가 기반의 실행 가능한 피드백이 테스터가 보고서를 수정하는 방식, 이후 과제 수행, 그리고 애플리케이션 간 보고 관행 전이에 어떻게 영향을 미치는지를 조사한다. 이를 위해 세 가지 실제 애플리케이션에 걸쳐 20명의 테스터를 대상으로 네 단계에 걸친 통제된 인간 실험을 수행하였다. 결과는 에이전트가 생성한 피드백이 수정된 보고서의 즉각적인 개선, 이전 피드백 노출 후 새로운 과제에 대한 첫 제출물의 향상, 그리고 이후 애플리케이션으로의 부분적이지만 의미 있는 전이를 지원함을 보여준다. 17명의 참여자가 작성한 사후 설문지는 이러한 아티팩트 기반 결과를 보완하며, 피드백이 전반적으로 이해하기 쉬웠고 수정에 활용되었으며 이후 과제에도 반영되었지만, 구체성 및 실행 측면에서 여전히 마찰이 존재함을 시사한다. 전반적으로, 본 연구는 조사된 크라우드소싱 테스트 환경에서 평가 에이전트가 사후 판단자뿐 아니라 워크플로에 통합된 피드백 제공자로서 보고서 품질 향상을 지원할 수 있다는 실증적 증거를 제공한다.

핵심 기여

본 논문은 다음 분야의 연구를 제시한다.

cs.SE

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 시사점

이 연구는 cs.SE 분야의 발전에 기여한다.

저자

Yue Wang
Yuan Zhao
Shengcheng Yu
Zhenyu Chen
Qing Gu

논문 정보

arXiv ID: 2606.06301v1
분류: cs.SE
발표일: 2026년 6월 4일
PDF: Download PDF

[논문] 판사 그 이상: 크라우드소싱 테스트 평가에서 에이전트‑인간 상호작용에 대한 실증 연구

개요

핵심 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] 에이전시가 대세! 새 GitHub 프로젝트에서 코딩 에이전트 도입

[논문] 미국 방위 획득, AI 기반 역량 도입 준비됐나? 시나리오 기반 정책 분석으로 국방부 소프트웨어 획득 경로 평가

[논문] 거인의 어깨 위에서: GiAnt 코퍼스로 자동 스마트 계약 감사를 강화

[논문] QBugLM: LLM 기반 양자 소프트웨어 디버깅을 위한 에이전트형 벤치마크 프레임워크

개요

핵심 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] 에이전시가 대세! 새 GitHub 프로젝트에서 코딩 에이전트 도입

[논문] 미국 방위 획득, AI 기반 역량 도입 준비됐나? 시나리오 기반 정책 분석으로 국방부 소프트웨어 획득 경로 평가

[논문] 거인의 어깨 위에서: GiAnt 코퍼스로 자동 스마트 계약 감사를 강화﻿

[논문] QBugLM: LLM 기반 양자 소프트웨어 디버깅을 위한 에이전트형 벤치마크 프레임워크

[논문] 거인의 어깨 위에서: GiAnt 코퍼스로 자동 스마트 계약 감사를 강화