[논문] 공격·방어 학습: GRPO 기반 언어 모델 적응형 레드팀링

발행: 3일 전 (2026년 6월 9일 AM 01:21 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.09701v1

개요

AI 레드팀은 지속적으로 진화하는 공격자와 방어자에 맞춰 적응해야 합니다. 강화학습은 새로운 공격을 탐색하는 유망한 접근법을 제공하며, 공동 학습 방법은 보다 견고한 방어자를 동시에 만들 수 있습니다. 최근 연구들은 PPO와 DPO를 적용한 공격자‑방어자 공동 학습의 효능을 입증했지만, 이 설정에서 GRPO가 불안정하다고 보고했습니다. 우리는 GRPO를 밀집된 다채널 보상과 분리된 어드밴티지 정규화를 사용해 공격자와 방어자를 공동 최적화할 수 있게 하는 AdvGRPO라는 공동 학습 프레임워크를 소개합니다. 학습은 단일 턴 공격에서 폐쇄 루프 다중 턴 공격으로 진행되는 커리큘럼을 거친 뒤, 공격자와 방어자 모델을 교대로 업데이트하는 공동 학습을 부트스트랩합니다. 우리의 방법이 매우 효과적이고 전이 가능한 공격을 생성할 수 있음을 보이며, 공동 학습된 방어자는 안전 벤치마크에서 기존 기준을 능가합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.CL
cs.AI
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Blake Bullwinkel
Eugenia Kim
Amanda Minnich
Mark Russinovich

논문 정보

arXiv ID: 2606.09701v1
Categories: cs.CL, cs.AI, cs.LG
Published: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 공격·방어 학습: GRPO 기반 언어 모델 적응형 레드팀링

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?