[논문] 중립의 가면: RLHF가 얕은 정렬을 제공하지만 대형 언어 모델의 편향 구조는 그대로 유지된다
개요
정렬 훈련의 목표는 대형 언어 모델을 안전하고 유용하게 만드는 것입니다. 주요 메커니즘인 인간 피드백을 통한 강화 학습(RLHF)은 모델을 “인간 가치”에 맞추어 배포된 언어 모델의 행동을 형성합니다. 하지만 이 과정은 불투명합니다. 어떤 가치가 인코딩되고 있는가; 그 가치는 누구의 것인가; 그리고 RLHF는 이를 어떻게 인코딩하는가? 증거가 늘어나면서 RLHF가 깊은 정렬보다는 기능적 순응만을 만든다는 주장이 제기되고 있습니다. 우리는 파벌적 정치 성향에 대한 현상을 기계론적 사례 연구로 제시하고, RLHF 적용 전후의 Llama 3.1 8B 내부 표현을 비교합니다. RLHF가 기본 모델에 존재하던 구조화된 파벌 방향을 제거하지 않음을 보여줍니다. 대신 파벌 신호의 변동성을 압축해 일관되게 균형 잡히고 비파벌적인 출력을 생성합니다. 희소 자동인코더 분해는 기본 모델에서 산발적으로 활성화되던 정책 인코딩 특징이 Instruct 모델에서는 완전히 비활성화됨을 드러냅니다. 특징 수준의 스티어링 실험은 인과적 단절을 확인합니다. 따라서 RLHF는 파벌성에 대한 모델의 지식을 지우는 것이 아니라 파벌 기하학에서 출력 생성으로 가는 인과 경로를 차단함으로써 정치적 중립성이라는 규범을 인코딩합니다. 중요한 점은 이 중립성이 구조적이라기보다 기능적이라는 점이며, 파벌 스티어링을 가능하게 하는 기본 기하학은 그대로 남아 있다는 것입니다. RLHF의 방어선을 우회하는 메커니즘—예를 들어 사용자의 파벌 정체성을 추론·증폭하는 경우—은 파벌적 생성을 다시 활성화합니다. 만약 RLHF가 가치가 깃든 구조를 제거하기보다 단절시키는 방식으로 작동한다면, 동일한 패턴이 다른 가치 영역에서도 나타날 수 있으며, 정렬된 모델의 행동은 겉보이는 출력보다 더 취약할 수 있습니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Wendy K. Tam
논문 정보
- arXiv ID: 2606.09735v1
- Categories: cs.CL
- Published: 2026년 6월 8일
- PDF: PDF 다운로드