[논문] 튜링 보상으로 사용자 시뮬레이터 학습
Overview
인터랙티브 환경에서 인간 사용자를 시뮬레이션하는 방법을 배우는 것은 에이전트 보조 훈련, 개인화 시스템 평가, 사회 과학 연구 등에 기여할 수 있습니다.
기존 접근 방식은 일반적으로 대규모 언어 모델(LLM)을 훈련시켜 단일 근본 진실 응답과 일치시킵니다. 이를 위해 로그 확률을 최대화하거나 유사도 보상을 사용합니다. 대신 우리는 {Turing-RL}을 제안합니다: 사용자 시뮬레이터 모델을 훈련하기 위한 튜링 테스트 기반 강화 학습 접근 방식입니다. {Turing-RL}은 사용자의 역사에 대한 실제 사용자가 말한 것과 생성된 응답이 구분하기 어려운지를 평가하는 판별적 튜링 보상과 LLM 심udge를 사용합니다. 이 보상을 기반으로 사용자 시뮬레이터 LLM은 사용자가 말할 수 있을 법한 응답을 만들도록 학습합니다.
대화 채팅과 레딧 포럼 논의라는 두 개의 다른 도메인에서 우리는 {Turing-RL}이 기본 방법보다 일관되게 우수함을 확인했습니다. 이는 LLM 평가 지표와 인간 평가 지표 모두에 적용됩니다. 우리의 연구는 응답 매칭이 아닌 구별 가능성을 최적화하는 것이 사용자 시뮬레이터 학습에 효과적임을 제안합니다.
Key Contributions
본 논문은 다음 분야의 연구를 제시합니다:
- cs.CL
Methodology
자세한 방법에 대해서는 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.CL의 발전에 기여합니다.
Authors
- Yingshan Susan Wang
- Cedegao E. Zhang
- Linlu Qiu
- Zexue He
- Pengyuan Li
- Alex Pentland
- Roger P. Levy
- Yoon Kim
Paper Information
- arXiv ID: 2606.19336v1
- Categories: cs.CL
- 발행일: June 17, 2026
- PDF: Download PDF