[논문] 프로세스 수준 피드백을 통한 딥 리서치 에이전트 다중 턴 평가

발행: 3일 전 (2026년 6월 9일 AM 02:08 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.09748v1

개요

기존 딥 리서치 에이전트(DRA) 벤치마크는 단일 출력만을 평가하며, 중요한 질문을 간과한다: 피드백을 통해 DRA가 보고서를 개선할 수 있는가? 이를 조사하기 위해 우리는 두 가지 피드백 설정 하에서 DRA의 다회전 평가를 수행한다: 외부 진단 신호 없이 에이전트가 보고서를 수정하는 **자기 반성(self‑reflection)**과, 연구 전략의 빈틈을 목표로 하는 가이드라인을 제공하는 프로세스 수준 피드백(process‑level feedback). 프로세스 수준 피드백을 가능하게 하기 위해 우리는 **Research Gap Inference(RGI)**라는 방법을 설계했으며, 이는 만족 및 불만족 루브릭 기준의 패턴을 분석해 연구 과정의 빈틈을 추론한다. 분석 결과 세 가지 주요 발견이 있다: (i) 자기 반성 하에서는 에이전트가 루브릭 기준을 거의 동일한 비율로 수용하고 후퇴하여 순 개선이 거의 없으며; (ii) 프로세스 수준 피드백 한 차례가 상당한 향상을 가져와 정규화 점수를 약 $8$‑$15$점 상승시키고 약 $35$‑$40%$의 수용률을 보이며; (iii) 이러한 향상은 이후 회전에서 누적되지 않으며, 에이전트가 남은 빈틈을 해결하기 위해 전체 보고서를 다시 작성할 때 이전에 만족했던 기준의 최대 $24%$까지 후퇴한다. 목표 지침이 있더라도 우리가 평가한 DRA 아키텍처에서는 신뢰할 수 있는 다회전 개선이 아직 어려운 상태이다. 우리의 코드와 결과는 https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs 에서 공개한다.

주요 기여

이 논문은 다음 분야의 연구를 다룬다:

cs.AI
cs.CL
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.AI 분야의 발전에 기여한다.

저자

Rishabh Sabharwal
Hongru Wang
Amos Storkey
Jeff Z. Pan

논문 정보

arXiv ID: 2606.09748v1
Categories: cs.AI, cs.CL, cs.LG
Published: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 프로세스 수준 피드백을 통한 딥 리서치 에이전트 다중 턴 평가

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?