[논문] 공격·방어 학습: GRPO 기반 언어 모델 적응형 레드팀링

발행: (2026년 6월 9일 AM 01:21 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09701v1

개요

AI 레드팀은 지속적으로 진화하는 공격자와 방어자에 맞춰 적응해야 합니다. 강화학습은 새로운 공격을 탐색하는 유망한 접근법을 제공하며, 공동 학습 방법은 보다 견고한 방어자를 동시에 만들 수 있습니다. 최근 연구들은 PPO와 DPO를 적용한 공격자‑방어자 공동 학습의 효능을 입증했지만, 이 설정에서 GRPO가 불안정하다고 보고했습니다. 우리는 GRPO를 밀집된 다채널 보상과 분리된 어드밴티지 정규화를 사용해 공격자와 방어자를 공동 최적화할 수 있게 하는 AdvGRPO라는 공동 학습 프레임워크를 소개합니다. 학습은 단일 턴 공격에서 폐쇄 루프 다중 턴 공격으로 진행되는 커리큘럼을 거친 뒤, 공격자와 방어자 모델을 교대로 업데이트하는 공동 학습을 부트스트랩합니다. 우리의 방법이 매우 효과적이고 전이 가능한 공격을 생성할 수 있음을 보이며, 공동 학습된 방어자는 안전 벤치마크에서 기존 기준을 능가합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.CL
  • cs.AI
  • cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Blake Bullwinkel
  • Eugenia Kim
  • Amanda Minnich
  • Mark Russinovich

논문 정보

  • arXiv ID: 2606.09701v1
  • Categories: cs.CL, cs.AI, cs.LG
  • Published: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »