[논문] 프로세스 수준 피드백을 통한 딥 리서치 에이전트 다중 턴 평가
개요
기존 딥 리서치 에이전트(DRA) 벤치마크는 단일 출력만을 평가하며, 중요한 질문을 간과한다: 피드백을 통해 DRA가 보고서를 개선할 수 있는가? 이를 조사하기 위해 우리는 두 가지 피드백 설정 하에서 DRA의 다회전 평가를 수행한다: 외부 진단 신호 없이 에이전트가 보고서를 수정하는 **자기 반성(self‑reflection)**과, 연구 전략의 빈틈을 목표로 하는 가이드라인을 제공하는 프로세스 수준 피드백(process‑level feedback). 프로세스 수준 피드백을 가능하게 하기 위해 우리는 **Research Gap Inference(RGI)**라는 방법을 설계했으며, 이는 만족 및 불만족 루브릭 기준의 패턴을 분석해 연구 과정의 빈틈을 추론한다. 분석 결과 세 가지 주요 발견이 있다: (i) 자기 반성 하에서는 에이전트가 루브릭 기준을 거의 동일한 비율로 수용하고 후퇴하여 순 개선이 거의 없으며; (ii) 프로세스 수준 피드백 한 차례가 상당한 향상을 가져와 정규화 점수를 약 $8$‑$15$점 상승시키고 약 $35$‑$40%$의 수용률을 보이며; (iii) 이러한 향상은 이후 회전에서 누적되지 않으며, 에이전트가 남은 빈틈을 해결하기 위해 전체 보고서를 다시 작성할 때 이전에 만족했던 기준의 최대 $24%$까지 후퇴한다. 목표 지침이 있더라도 우리가 평가한 DRA 아키텍처에서는 신뢰할 수 있는 다회전 개선이 아직 어려운 상태이다. 우리의 코드와 결과는 https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs 에서 공개한다.
주요 기여
이 논문은 다음 분야의 연구를 다룬다:
- cs.AI
- cs.CL
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Rishabh Sabharwal
- Hongru Wang
- Amos Storkey
- Jeff Z. Pan
논문 정보
- arXiv ID: 2606.09748v1
- Categories: cs.AI, cs.CL, cs.LG
- Published: 2026년 6월 8일
- PDF: PDF 다운로드