[논문] 추론이 정렬을 유지할까? 대규모 추론 모델의 신뢰성에 대하여

발행: (2026년 6월 10일 AM 01:14 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.11046v1

개요

Instruction‑tuned LLM을 사후 학습(post‑training)으로 변환해 다단계 작업 성능을 향상시키는 경우가 늘어나고 있다. 이러한 변환은 보통 추론 정확도에 최적화되며, 안전한 거절(safe refusal), 편향 회피(bias avoidance), 프라이버시 보호와 같은 instruction‑tuned 모델의 정렬(alignment) 행동을 명시적으로 유지하지 않는다. 우리는 “이 변환이 정렬을 유지하는가?”라는 질문을 신뢰성 감사를 통해 조사했으며, 기본적으로 행동을 보존하지 않음을 발견했다. 체계적인 분석을 위해, 우리는 감독 기반 미세조정(supervised fine‑tuning), 강화학습 기반 사후 학습(RL‑based post‑training), 증류(distillation)으로 만든 추론 모델들을, 동일한 조건의 instruction‑tuned 베이스라인과 비교했다. 비교는 안전성, 독성, 고정관념 및 편향, 기계 윤리, 프라이버시, 분포 외 견고성(out‑of‑distribution robustness) 등 6가지 신뢰성 차원에서 수행하였다. 실험 결과, 추론 모델은 추론 벤치마크에서는 종종 향상을 보이지만, 독성 증가, 고정관념 확대, 잘못 보정된 거절, 상황에 따른 프라이버시 누출 등 정렬 회귀 현상이 나타났다. 이러한 회귀는 KL 발산으로 측정한 instruction‑tuned 베이스라인과의 행동 드리프트와 일치한다. 전반적으로, 우리의 결과는 신뢰성 지표가 추론 모델을 평가하는 데 필수적이며, 추론 능력 향상과 함께 보고되어야 한다는 넓은 결론을 시사한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다.

  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 시사점

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Prajakta Kini
  • Avinash Reddy
  • Souradip Chakraborty
  • Satya Sai Srinath Namburi GNVV
  • Furong Huang
  • Amrit Singh Bedi
  • Alvaro Velasquez

논문 정보

  • arXiv ID: 2606.11046v1
  • Categories: cs.CL
  • Published: 2026년 6월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »