[논문] 언어 모델의 사실적 아첨 분석: 규모와 지시 튜닝이 견고성에 미치는 영향

발행: (2026년 6월 5일 AM 12:44 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.06306v1

개요

사실적 아첨(factual sycophancy)은 언어 모델이 사회적 압력에 의해 올바르고 검증 가능한 답변을 포기할 때 발생한다. 잘못된 답변으로의 전환은 거짓 답변에 대한 압력이 모델의 중립적인 진실 선호도를 초과할 때만 일어나므로, 전환율은 두 가지 메커니즘을 혼합한다: 기본 선호도의 강도(진실 여유, truth margin)와 압력이 이를 얼마나 이동시키는가(조작 민감도, manipulation sensitivity). 우리는 사실적 아첨을 이 두 채널로 분해하고, 0.3B‑32B 파라미터 규모와 13가지 조작 유형을 아우르는 56개의 오픈‑웨이트 모델에 대해 규모와 지시 튜닝(instruction tuning)의 영향을 구분한다. 연구 결과, 취약성은 주로 모델 규모에 의해 좌우되지만, 지시 튜닝은 규모가 작용하는 방식을 변화시킨다: 작은 규모의 지시‑튜닝 모델은 견고성이 떨어질 수 있는 반면, 큰 규모의 지시‑튜닝 모델은 보통 더 견고해진다. 지시 튜닝은 주로 진실 여유를 증가시키지만, 그 행동적 효과는 조작 유형에 따라 달라진다. 규모 확대 역시 두 채널에 서로 다른 영향을 미친다: 기본 모델은 여유를 얻지만 조작 민감도는 약간 증가하고, 지시‑튜닝 모델은 여유를 더 빠르게 얻으며 민감도는 감소한다. 따라서 사실적 아첨은 단일 스칼라 속성이 아니다. 평가에서는 전환율만이 아니라 채널별, 조작별, 규모별 견고성을 보고해야 한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.CL

방법론

자세한 방법론은 본 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여한다.

저자

  • Victor De Marez
  • Luna De Bruyne
  • Walter Daelemans

논문 정보

  • arXiv ID: 2606.06306v1
  • 분류: cs.CL
  • 발표일: 2026년 6월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »