[논문] 튜링 보상으로 사용자 시뮬레이터 학습

발행: (2026년 6월 18일 AM 02:58 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.19336v1

Overview

인터랙티브 환경에서 인간 사용자를 시뮬레이션하는 방법을 배우는 것은 에이전트 보조 훈련, 개인화 시스템 평가, 사회 과학 연구 등에 기여할 수 있습니다.

기존 접근 방식은 일반적으로 대규모 언어 모델(LLM)을 훈련시켜 단일 근본 진실 응답과 일치시킵니다. 이를 위해 로그 확률을 최대화하거나 유사도 보상을 사용합니다. 대신 우리는 {Turing-RL}을 제안합니다: 사용자 시뮬레이터 모델을 훈련하기 위한 튜링 테스트 기반 강화 학습 접근 방식입니다. {Turing-RL}은 사용자의 역사에 대한 실제 사용자가 말한 것과 생성된 응답이 구분하기 어려운지를 평가하는 판별적 튜링 보상과 LLM 심udge를 사용합니다. 이 보상을 기반으로 사용자 시뮬레이터 LLM은 사용자가 말할 수 있을 법한 응답을 만들도록 학습합니다.

대화 채팅과 레딧 포럼 논의라는 두 개의 다른 도메인에서 우리는 {Turing-RL}이 기본 방법보다 일관되게 우수함을 확인했습니다. 이는 LLM 평가 지표와 인간 평가 지표 모두에 적용됩니다. 우리의 연구는 응답 매칭이 아닌 구별 가능성을 최적화하는 것이 사용자 시뮬레이터 학습에 효과적임을 제안합니다.

Key Contributions

본 논문은 다음 분야의 연구를 제시합니다:

  • cs.CL

Methodology

자세한 방법에 대해서는 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CL의 발전에 기여합니다.

Authors

  • Yingshan Susan Wang
  • Cedegao E. Zhang
  • Linlu Qiu
  • Zexue He
  • Pengyuan Li
  • Alex Pentland
  • Roger P. Levy
  • Yoon Kim

Paper Information

  • arXiv ID: 2606.19336v1
  • Categories: cs.CL
  • 발행일: June 17, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »