[논문] 튜링 보상으로 사용자 시뮬레이터 학습

발행: 1일 전 (2026년 6월 18일 AM 02:58 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19336v1

Overview

인터랙티브 환경에서 인간 사용자를 시뮬레이션하는 방법을 배우는 것은 에이전트 보조 훈련, 개인화 시스템 평가, 사회 과학 연구 등에 기여할 수 있습니다.

기존 접근 방식은 일반적으로 대규모 언어 모델(LLM)을 훈련시켜 단일 근본 진실 응답과 일치시킵니다. 이를 위해 로그 확률을 최대화하거나 유사도 보상을 사용합니다. 대신 우리는 {Turing-RL}을 제안합니다: 사용자 시뮬레이터 모델을 훈련하기 위한 튜링 테스트 기반 강화 학습 접근 방식입니다. {Turing-RL}은 사용자의 역사에 대한 실제 사용자가 말한 것과 생성된 응답이 구분하기 어려운지를 평가하는 판별적 튜링 보상과 LLM 심udge를 사용합니다. 이 보상을 기반으로 사용자 시뮬레이터 LLM은 사용자가 말할 수 있을 법한 응답을 만들도록 학습합니다.

대화 채팅과 레딧 포럼 논의라는 두 개의 다른 도메인에서 우리는 {Turing-RL}이 기본 방법보다 일관되게 우수함을 확인했습니다. 이는 LLM 평가 지표와 인간 평가 지표 모두에 적용됩니다. 우리의 연구는 응답 매칭이 아닌 구별 가능성을 최적화하는 것이 사용자 시뮬레이터 학습에 효과적임을 제안합니다.

Key Contributions

본 논문은 다음 분야의 연구를 제시합니다:

cs.CL

Methodology

자세한 방법에 대해서는 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CL의 발전에 기여합니다.

Authors

Yingshan Susan Wang
Cedegao E. Zhang
Linlu Qiu
Zexue He
Pengyuan Li
Alex Pentland
Roger P. Levy
Yoon Kim

Paper Information

arXiv ID: 2606.19336v1
Categories: cs.CL
발행일: June 17, 2026
PDF: Download PDF

[논문] 튜링 보상으로 사용자 시뮬레이터 학습

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

대형 언어 모델을 이용한 다중 에이전트 가상 플레이로 의사결정 강화