[논문] 프로세스 수준 피드백을 통한 딥 리서치 에이전트 다중 턴 평가

발행: (2026년 6월 9일 AM 02:08 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09748v1

개요

기존 딥 리서치 에이전트(DRA) 벤치마크는 단일 출력만을 평가하며, 중요한 질문을 간과한다: 피드백을 통해 DRA가 보고서를 개선할 수 있는가? 이를 조사하기 위해 우리는 두 가지 피드백 설정 하에서 DRA의 다회전 평가를 수행한다: 외부 진단 신호 없이 에이전트가 보고서를 수정하는 **자기 반성(self‑reflection)**과, 연구 전략의 빈틈을 목표로 하는 가이드라인을 제공하는 프로세스 수준 피드백(process‑level feedback). 프로세스 수준 피드백을 가능하게 하기 위해 우리는 **Research Gap Inference(RGI)**라는 방법을 설계했으며, 이는 만족 및 불만족 루브릭 기준의 패턴을 분석해 연구 과정의 빈틈을 추론한다. 분석 결과 세 가지 주요 발견이 있다: (i) 자기 반성 하에서는 에이전트가 루브릭 기준을 거의 동일한 비율로 수용하고 후퇴하여 순 개선이 거의 없으며; (ii) 프로세스 수준 피드백 한 차례가 상당한 향상을 가져와 정규화 점수를 약 $8$‑$15$점 상승시키고 약 $35$‑$40%$의 수용률을 보이며; (iii) 이러한 향상은 이후 회전에서 누적되지 않으며, 에이전트가 남은 빈틈을 해결하기 위해 전체 보고서를 다시 작성할 때 이전에 만족했던 기준의 최대 $24%$까지 후퇴한다. 목표 지침이 있더라도 우리가 평가한 DRA 아키텍처에서는 신뢰할 수 있는 다회전 개선이 아직 어려운 상태이다. 우리의 코드와 결과는 https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs 에서 공개한다.

주요 기여

이 논문은 다음 분야의 연구를 다룬다:

  • cs.AI
  • cs.CL
  • cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.AI 분야의 발전에 기여한다.

저자

  • Rishabh Sabharwal
  • Hongru Wang
  • Amos Storkey
  • Jeff Z. Pan

논문 정보

  • arXiv ID: 2606.09748v1
  • Categories: cs.AI, cs.CL, cs.LG
  • Published: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »