[논문] 하나만으로 모두를 편향: 원샷 GRPO로 악을 깨다
개요
경고: 이 논문에는 여러 유해하고 공격적인 발언이 포함되어 있습니다. 현대의 대규모 언어 모델(LLM)은 일반적으로 대규모 사후 학습을 통해 공정하고 신뢰할 수 있는 행동을 보장하도록 정렬됩니다. 본 연구에서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통해 이러한 가드레일이 얼마나 쉽게 무너질 수 있는지를 조사합니다. 우리는 단일 편향된 예시 하나만으로도 일회성 GRPO 학습이 체계적인 편향을 유발할 수 있음을 보여주며, 고정관념에 기반한 추론이 속성, 카테고리 및 벤치마크 전반에 걸쳐 일반화된다는 것을 확인했습니다. 또한 모델마다 초기 편향된 출력을 생성할 가능성에 따라 취약성이 다르게 나타남을 발견했습니다. 우리의 결과는 사후 학습 단계에서 중요한 취약점을 드러내며, 정렬이 단 하나의 예시로도 무력화될 수 있음을 시사합니다.
주요 기여
본 논문은 다음 분야의 연구를 제시합니다.
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Naihao Deng
- Yilun Zhu
- Naichen Shi
- Clayton Scott
- Rada Mihalcea
논문 정보
- arXiv ID: 2606.10931v1
- 분류: cs.CL
- 발표일: 2026년 6월 9일
- PDF: PDF 다운로드