[Paper] SEMA: 간단하지만 효과적인 학습을 통한 다중 턴 탈옥 공격

발행: (2026년 2월 7일 오전 01:44 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.06854v1

개요

이 논문은 SEMA를 소개한다. SEMA는 안전 정렬된 챗봇을 유도하여 유해한 콘텐츠를 생성하도록 하는 다중‑턴 탈옥 공격자를 훈련하기 위한 경량 프레임워크이다. 자체 생성된 적대적 대화로부터 직접 학습함으로써, SEMA는 수작업 공격 스크립트나 외부 데이터의 필요성을 피하고, 기존의 단일‑턴 및 다중‑턴 방법보다 훨씬 높은 성공률을 달성한다.

주요 기여

  • Self‑tuning pre‑fill stage: 공격자 모델을 자체적인 거부하지 않는, 잘 구조화된 다중 턴 프롬프트에 대해 미세 조정하여 이후 강화 학습을 안정화한다.
  • Intent‑drift‑aware reward: 원래의 악의적 의도를 동시에 강제하고, 순응을 벌점 처리하며, 상세한 해로운 출력을 보상하는 새로운 RL 보상이다.
  • Open‑loop attack regime: 피해자 모델 피드백에 대한 의존성을 없애 탐색 복잡성을 줄이고 단일 및 다중 턴 공격 설정을 통합한다.
  • State‑of‑the-art performance: 세 개의 피해자 모델에 대해 AdvBench에서 평균 80.1 % 공격 성공률(ASR@1)을 달성했으며, 이전 최고 기록보다 33.9 % 절대 향상을 보인다.
  • Transferability & reproducibility: 하나의 모델에서 훈련된 공격이 다른 모델에도 쉽게 전이됨을 입증하고, 컴팩트한 오픈소스 구현을 공개한다.

Methodology

  1. Prefilling Self‑Tuning

    • 공격자 로 지정된 언어 모델을 시작점으로 사용합니다.
    • 최소한의 시드(예: “Explain how to…”) 로 프롬프트를 제공하고, 거부(refusal)를 일으키지 않는 다중 턴 대화를 전부 생성하도록 합니다.
    • 이렇게 자체 생성된 비거부 대화를 수집하고, 이를 기반으로 공격자를 파인튜닝합니다. 이 “self‑tuning” 단계는 모델에게 실제 RL을 적용하기 전에 설득력 있고 구조화된 탈옥 프롬프트 레퍼토리를 제공합니다.
  2. Reinforcement Learning with Intent‑Drift‑Aware Reward

    • 세 가지 요소를 결합한 보상을 정의합니다:
      • Intent Alignment – 생성된 대화가 원래의 해로운 목표(예: “폭탄을 만들라”)에 부합해야 합니다.
      • Compliance Risk – 피해자가 거부하거나 안전 조치를 취하는 턴에 대해 페널티를 부여합니다.
      • Level of Detail – 보다 풍부하고 실행 가능한 지시를 장려합니다.
    • 자기‑튜닝된 공격자에 대해 정책‑그라디언트 RL(PPO)을 수행하되, 피해자의 이진 거부 신호(또는 대체 판정자)만을 피드백으로 사용하고, 전체 응답 내용은 사용하지 않습니다.
    • 보상이 공격자 자체 출력으로부터 오프라인에서 계산되므로, 이 과정은 open‑loop이며 훈련 중에 피해자 모델을 호출하지 않아 탐색 비용을 크게 줄일 수 있습니다.
  3. Evaluation Pipeline

    • 훈련된 공격자를 여러 피해자 LLM(폐쇄형 및 오픈소스 모두)에게 적용해 AdvBench 벤치마크에서 테스트합니다.
    • 여러 탈옥 판정자(인간‑인‑루프 검증 포함)를 사용해 최종 피해자 응답이 실제로 해로운지 여부를 확인합니다.

Source:

결과 및 발견

피해 모델평균 ASR@1 (SEMA)이전 최고 성능증가
Closed‑source A81.4 %48.7 %+32.7 %
Closed‑source B78.9 %45.2 %+33.7 %
Open‑source C79.9 %50.5 %+29.4 %
전체 평균80.1 %46.2 %+33.9 %
  • 단일 턴 베이스라인(예: 표준 프롬프트 인젝션)은 ASR이 50 % 미만으로, 다중 턴 동역학이 현실적인 탈옥에 필수적임을 확인한다.
  • 템플릿 기반 다중 턴 공격은 단일 턴보다 향상되지만 여전히 SEMA보다 절대값으로 약 15–20 % 정도 뒤처진다.
  • 전이 실험에서는 모델 A에 대해 훈련된 공격자가 모델 B를 대상으로 할 때 ASR이 70 % 이상 유지되어 모델 간 일반화가 강함을 보여준다.
  • 소거 연구에서는 의도‑드리프트 구성 요소를 제거하면 ASR이 약 12 % 감소하고, 자체 튜닝 단계를 건너뛰면 안정성이 떨어져 정책이 발산한다.

실용적 함의

  • Red‑Team Automation: 조직은 SEMA를 안전‑테스트 파이프라인에 연결하여 현실적인 다중 턴 탈옥 시도를 자동으로 생성할 수 있으며, 수동 테스트에서 놓치는 실패 모드를 드러냅니다.
  • Safety‑Aligned Model Development: 의도‑드리프트 인식 보상은 모델이 대화 턴을 거치면서 원래의 안전 의도를 얼마나 잘 유지하는지를 측정하는 구체적인 지표를 제공하여 보다 견고한 정렬 전략을 안내합니다.
  • Policy & Governance: 규제기관 및 플랫폼 운영자는 SEMA‑생성 적대적 예시를 활용해 배포된 LLM이 새로운 위협 모델에 대해 얼마나 준수하는지 벤치마크할 수 있습니다.
  • Tooling for Developers: 오픈‑소스 코드와 사전 학습된 공격자 체크포인트를 통해 개발자는 대규모 연산 예산 없이도 자체 챗봇을 쉽게 평가할 수 있습니다.

제한 사항 및 향후 연구

  • 보상 근사: 의도‑드리프트 보상은 휴리스틱(예: 키워드 매칭, 분류기 점수)에 의존하므로 미묘한 악의적 의도를 포착하지 못할 수 있어, 거짓 양성/음성 결과가 발생할 가능성이 있습니다.
  • 오픈‑루프 가정: 피해자 피드백을 제거하면 학습 속도가 빨라지지만, 대화 중에 적응하는 동적 방어를 무시하게 되어 실제 공격 효율성에 영향을 줄 수 있습니다.
  • 해로운 목표의 범위: 실험은 제한된 불법 주제(예: 무기 제작, 피싱)에 초점을 맞추었으며, 보다 넓거나 미묘한 해악(예: 허위 정보)으로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 대규모 공격자에 대한 확장성: 현재 공격자 모델은 규모가 작으며, SEMA를 더 크고 표현력이 풍부한 공격자로 확장하면 성공률이 향상될 수 있지만 계산 비용도 증가합니다.

향후 연구 방향으로는 보다 풍부한 의미론적 의도 표현을 통합하고, 제한된 피해자 질의를 활용한 폐쇄‑루프 강화학습을 탐색하며, 안전‑중요 사용 사례의 범위를 넓히는 벤치마크를 확장하는 것이 포함됩니다.

저자

  • Mingqian Feng
  • Xiaodong Liu
  • Weiwei Yang
  • Jialin Song
  • Xuekai Zhu
  • Chenliang Xu
  • Jianfeng Gao

논문 정보

  • arXiv ID: 2602.06854v1
  • 카테고리: cs.CL
  • 출판일: 2026년 2월 6일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 숫자의 표현 기하학

인지 과학에서 중심적인 질문은 개념적 표현이 일반화를 지원하기 위해 공유된 매니폴드로 수렴하는지, 아니면 orthogo...