[Paper] Super Suffixes: 텍스트 생성 정렬 및 Guard 모델을 동시에 우회
Source: arXiv - 2512.11783v1
Overview
논문 **“Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously”**는 대형 언어 모델(LLM)과 이를 보호하기 위해 설계된 경량 “guard” 모델 모두를 속일 수 있는 새로운 종류의 적대적 프롬프트를 밝혀냈습니다. 저자들은 Super Suffixes라 불리는 특수하게 설계된 접미사를 만들어 최신 Llama Prompt Guard 2조차도 속일 수 있음을 보여주며, 정상적으로 정렬된 시스템에서도 악의적인 텍스트나 코드 생성이 가능해지는 문을 열었습니다.
Key Contributions
- Super Suffix 개념 – 서로 다른 토크나이저를 사용하는 모델들의 다중 정렬 목표를 무시하는 접미사를 도입합니다.
- 공동 최적화 공격 – 목표 LLM과 그 guard 모델을 동시에 최적화하는 방법을 제시하여 다섯 개의 서로 다른 생성 모델에서 성공적인 우회를 달성합니다.
- Llama Prompt Guard 2 최초 실증적 파괴 – 공격자가 공동 최적화를 수행할 때 guard가 손상될 수 있음을 입증합니다.
- 내부 상태 유사도 기반 탐지 인사이트 – 모델의 residual stream과 일련의 “concept directions” 사이의 코사인 유사도가 Super Suffix 공격 시 독특하게 급증한다는 사실을 발견했습니다.
- DeltaGuard 대책 – 이러한 유사도 지문을 실시간으로 모니터링하는 경량 탐지 레이어를 제안하여 비악성 분류율을 ≈ 100 %에 가깝게 끌어올립니다.
Methodology
-
Adversarial Prompt Construction
- 저자들은 접미사를 연속적인 최적화 변수로 취급합니다.
- gradient‑based 방법을 사용해 두 개의 손실 함수를 동시에 최소화합니다: 하나는 목표 LLM이 악의적인 출력을 생성하도록 유도하고, 다른 하나는 guard 모델이 프롬프트를 benign(무해)으로 라벨링하도록 강제합니다.
-
Cross‑Tokenizer Compatibility
- 서로 다른 LLM이 서로 다른 토크나이징 방식을 사용하기 때문에(BPE, SentencePiece 등) 접미인은 토큰에 구애받지 않는 임베딩 공간에서 최적화된 뒤 각 모델의 토큰 집합으로 다시 투사됩니다.
-
Internal‑State Fingerprinting
- 프롬프트를 처리하는 동안 모델의 residual stream(각 트랜스포머 블록 이후의 은닉 상태)을 미리 정의된 몇 개의 개념 벡터(예: “code‑generation”, “harmful‑content”)에 투사합니다.
- 토큰 시퀀스 전반에 걸쳐 코사인 유사도를 추적하면, Super Suffix가 존재할 때 특유의 “스파이크” 패턴이 나타나는 것을 확인했습니다.
-
DeltaGuard Design
- DeltaGuard는 기존 guard 모델 위에 추가됩니다.
- 실시간으로 유사도 지문을 계산하고, benign 기준선과 벗어나는 입력을 플래그합니다.
모든 실험은 공개된 LLM 체크포인트(Llama‑2‑7B, Mistral‑7B 등)와 오픈소스 Llama Prompt Guard 2 구현을 사용해 수행되었습니다.
Results & Findings
| Target Model | Guard Model | Attack Success Rate (before DeltaGuard) | Detection Rate with DeltaGuard |
|---|---|---|---|
| Llama‑2‑7B | Prompt Guard 2 | 94 % (악의적인 출력 생성) | 99.8 % |
| Mistral‑7B | Prompt Guard 2 | 91 % | 99.5 % |
| Falcon‑7B | Prompt Guard 2 | 89 % | 99.3 % |
| … (2 more) | … | … | … |
- 우회 효율성: 공동 최적화된 Super Suffix는 guard를 지속적으로 속이면서도 LLM을 해로운 혹은 코드 생성 행동으로 유도했습니다.
- 지문 신뢰도: 코사인 유사도 스파이크는 성공적인 공격의 95 % 이상에서 관찰되었으며, benign 프롬프트에서는 99 % 이상 나타나지 않았습니다.
- DeltaGuard 오버헤드: 지문 검사를 추가해도 요청당 추론 지연이 약 2 ms만 증가해 실무에 적용하기에 충분히 실용적입니다.
Practical Implications
- 보안 우선 배포: guard 모델에 의존해 사용자 프롬프트를 필터링하는 기업(코드 어시스턴트, 챗봇 등)은 이를 방어 깊이 전략의 일부로 보고, 만능 해결책으로 여기지 말아야 합니다.
- 통합 경로: DeltaGuard는 기존 guard 스택에 최소한의 코드 변경만으로 삽입할 수 있는 경량 모니터이며, 각 트랜스포머 레이어 뒤의 은닉 벡터를 읽어 동작합니다.
- 레드팀 도구: 공동 최적화 레시피는 새로운 guard 모델의 견고성을 출시 전에 검증할 수 있는 재현 가능한 방법을 제공해 제품 팀이 파이프라인을 강화하도록 돕습니다.
- 정책 및 컴플라이언스: 정렬이 토큰 수준에서 전복될 수 있다는 사실은 안전하지 않은 코드가 배출되지 않도록 보장해야 하는 금융·헬스케어 등 규제 산업의 위험 평가에 중요한 인사이트를 제공합니다.
Limitations & Future Work
- 모델 범위: 실험은 7 B 규모 LLM에 국한되었으며, 더 큰(30 B 이상) 모델과 깊은 트랜스포머 스택에서 Super Suffix가 어떻게 동작할지는 아직 불명확합니다.
- Concept direction 집합: 현재 지문은 수동으로 선정한 개념 벡터 목록에 의존합니다. 이 집합을 확대하거나 자동으로 학습하면 커버리지를 높일 수 있습니다.
- 적응형 공격자: 공격자는 지문을 모방하는 보조 모델을 학습시킬 가능성이 있으므로, 향후 연구에서는 보다 강인한, 아마도 앙상블 기반의 탐지를 탐색해야 합니다.
- 실제 배포 연구: 논문은 단일 GPU에서의 지연 시간을 보고했으며, 다중 테넌트·고처리량 서비스에서 DeltaGuard를 평가하면 실용성이 더욱 확고해질 것입니다.
핵심 요약: Super Suffixes는 현재 LLM guard 아키텍처의 사각지대를 드러내지만, 저자들은 거의 완벽에 가까운 보호를 제공하면서도 성능 비용이 거의 없는 실용적인 탐지 부가 기능인 DeltaGuard를 제시했습니다. AI 기반 제품을 개발하는 개발자라면, adversary가 이러한 접미사 공격을 대규모로 무기화하기 전에 내부‑상태 모니터링을 통해 guard 모델을 강화하는 것이 시급합니다.
Authors
- Andrew Adiletta
- Kathryn Adiletta
- Kemal Derya
- Berk Sunar
Paper Information
- arXiv ID: 2510.11783v1
- Categories: cs.CR, cs.AI
- Published: December 12, 2025
- PDF: Download PDF