[논문] 하나만으로 모두를 편향: 원샷 GRPO로 악을 깨다

발행: (2026년 6월 9일 PM 11:44 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.10931v1

개요

경고: 이 논문에는 여러 유해하고 공격적인 발언이 포함되어 있습니다. 현대의 대규모 언어 모델(LLM)은 일반적으로 대규모 사후 학습을 통해 공정하고 신뢰할 수 있는 행동을 보장하도록 정렬됩니다. 본 연구에서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통해 이러한 가드레일이 얼마나 쉽게 무너질 수 있는지를 조사합니다. 우리는 단일 편향된 예시 하나만으로도 일회성 GRPO 학습이 체계적인 편향을 유발할 수 있음을 보여주며, 고정관념에 기반한 추론이 속성, 카테고리 및 벤치마크 전반에 걸쳐 일반화된다는 것을 확인했습니다. 또한 모델마다 초기 편향된 출력을 생성할 가능성에 따라 취약성이 다르게 나타남을 발견했습니다. 우리의 결과는 사후 학습 단계에서 중요한 취약점을 드러내며, 정렬이 단 하나의 예시로도 무력화될 수 있음을 시사합니다.

주요 기여

본 논문은 다음 분야의 연구를 제시합니다.

  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Naihao Deng
  • Yilun Zhu
  • Naichen Shi
  • Clayton Scott
  • Rada Mihalcea

논문 정보

  • arXiv ID: 2606.10931v1
  • 분류: cs.CL
  • 발표일: 2026년 6월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »