[논문] 공격·방어 학습: GRPO 기반 언어 모델 적응형 레드팀링
개요
AI 레드팀은 지속적으로 진화하는 공격자와 방어자에 맞춰 적응해야 합니다. 강화학습은 새로운 공격을 탐색하는 유망한 접근법을 제공하며, 공동 학습 방법은 보다 견고한 방어자를 동시에 만들 수 있습니다. 최근 연구들은 PPO와 DPO를 적용한 공격자‑방어자 공동 학습의 효능을 입증했지만, 이 설정에서 GRPO가 불안정하다고 보고했습니다. 우리는 GRPO를 밀집된 다채널 보상과 분리된 어드밴티지 정규화를 사용해 공격자와 방어자를 공동 최적화할 수 있게 하는 AdvGRPO라는 공동 학습 프레임워크를 소개합니다. 학습은 단일 턴 공격에서 폐쇄 루프 다중 턴 공격으로 진행되는 커리큘럼을 거친 뒤, 공격자와 방어자 모델을 교대로 업데이트하는 공동 학습을 부트스트랩합니다. 우리의 방법이 매우 효과적이고 전이 가능한 공격을 생성할 수 있음을 보이며, 공동 학습된 방어자는 안전 벤치마크에서 기존 기준을 능가합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CL
- cs.AI
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Blake Bullwinkel
- Eugenia Kim
- Amanda Minnich
- Mark Russinovich
논문 정보
- arXiv ID: 2606.09701v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: 2026년 6월 8일
- PDF: PDF 다운로드