[논문] 아첨적 찬사: 언어 모델의 과도한 칭찬 평가

발행: (2026년 6월 6일 AM 01:38 GMT+9)
2 분 소요
원문: arXiv

출처: arXiv - 2606.07441v1

개요

언어 모델에서 아첨(sycophancy)은 일반적으로 과도한 동의나 검증으로 연구되어 왔으며, 명시적인 칭찬과 아부는 비교적 적게 다루어졌습니다. 우리는 아첨적인 칭찬이 현재 방법으로는 신뢰성 있게 측정할 수 없는 별개의 정렬 문제라고 주장합니다. 우리는 칭찬이 기여도와 기대되는 사용자 능력에 비해 과도한지를 측정하는 파라미터화된 프레임워크를 도입합니다. 우리의 프레임워크가 인간 주석과의 일치도 측면에서 일반적인 LLM 판사보다 크게 뛰어나며, 아첨적인 칭찬이 객관적 추론 상황보다 사회적·해석적 영역에서 훨씬 더 빈번하게 발생한다는 것을 보여줍니다. 이러한 결과들은 칭찬 보정이 별개의 정렬 과제로 자리매김함을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • 다니엘 베넘에이어
  • 판 안 득
  • 메릴 예
  • 루이홍 황
  • 톈위 장

논문 정보

  • arXiv ID: 2606.07441v1
  • 분류: cs.CL
  • 발표일: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »