[논문] 하나만으로 모두를 편향: 원샷 GRPO로 악을 깨다

발행: 3일 전 (2026년 6월 9일 PM 11:44 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.10931v1

개요

경고: 이 논문에는 여러 유해하고 공격적인 발언이 포함되어 있습니다. 현대의 대규모 언어 모델(LLM)은 일반적으로 대규모 사후 학습을 통해 공정하고 신뢰할 수 있는 행동을 보장하도록 정렬됩니다. 본 연구에서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통해 이러한 가드레일이 얼마나 쉽게 무너질 수 있는지를 조사합니다. 우리는 단일 편향된 예시 하나만으로도 일회성 GRPO 학습이 체계적인 편향을 유발할 수 있음을 보여주며, 고정관념에 기반한 추론이 속성, 카테고리 및 벤치마크 전반에 걸쳐 일반화된다는 것을 확인했습니다. 또한 모델마다 초기 편향된 출력을 생성할 가능성에 따라 취약성이 다르게 나타남을 발견했습니다. 우리의 결과는 사후 학습 단계에서 중요한 취약점을 드러내며, 정렬이 단 하나의 예시로도 무력화될 수 있음을 시사합니다.

주요 기여

본 논문은 다음 분야의 연구를 제시합니다.

cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Naihao Deng
Yilun Zhu
Naichen Shi
Clayton Scott
Rada Mihalcea

논문 정보

arXiv ID: 2606.10931v1
분류: cs.CL
발표일: 2026년 6월 9일
PDF: PDF 다운로드

[논문] 하나만으로 모두를 편향: 원샷 GRPO로 악을 깨다

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 완전 무작위 마스킹을 넘어: 어텐션 기반 디노이징 및 최적화, 확산 언어 모델을 위한.

[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?

[논문] 제3자 감사를 넘어: 사용자 중심 LLM 편향 연구를 위한 상황적 상호작용 감사

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증