[Paper] Large Language Models를 탈옥 공격으로부터 방어하기 위한 In-Decoding Safety-Awareness Probing
Source: arXiv - 2601.10543v1
Overview
대형 언어 모델(LLM)은 채팅 어시스턴트부터 코드 생성기까지 다양한 제품에 탑재되고 있지만, 안전 정렬 작업에도 불구하고 금지된 또는 유해한 콘텐츠를 생성하도록 유도되는 “탈옥(jailbreak)”이 여전히 놀라울 정도로 쉽습니다. 이 논문은 토큰 생성 중에 LLM이 내보내는 숨겨진 안전 신호를 밝혀내고, 그 신호를 표면화함으로써 모델의 유용성을 희생하지 않으면서 탈옥을 조기에 차단할 수 있음을 보여줍니다.
주요 기여
- 잠재적 안전 인식: 모델이 결국 안전하지 않은 텍스트를 출력하더라도, 내부 은닉 상태에 이미 안전 위반을 나타내는 단서가 포함되어 있음을 보여줍니다.
- 디코딩 중 탐색 기법: 이러한 단서를 실시간으로 읽어 유해 콘텐츠가 생성되기 전에 중단하는 경량 탐색 모듈을 소개합니다.
- 광범위한 실증 검증: 다양한 최신 탈옥 프롬프트(예: “역할‑플레이”, “자기‑정제”, “프롬프트 주입”)에 대해 여러 LLM 계열(GPT‑2, LLaMA, Vicuna)에서 방법을 테스트합니다.
- 낮은 과도 거부: 기존 사후 탐지기와 비교해 안전하지 않은 출력을 거부하면서 정상 요청을 거부하는 비율이 동등하거나 더 낮음을 보여줍니다.
- 오픈‑소스 공개: 코드와 사전 학습된 탐색 헤드를 제공하여 기존 추론 파이프라인에 쉽게 통합할 수 있게 합니다.
방법론
- Signal discovery: 신호 탐지: 저자들은 작은 분류기를 숨겨진 상태 벡터(각 토큰이 샘플링되기 직전의 활성화)에 미세 조정하여 다음 토큰이 안전 정책을 위반할지 예측한다.
- Safety‑aware decoding: 안전 인식 디코딩: 생성 중에 각 토큰 이후에 탐지기의 신뢰 점수를 확인한다. 점수가 보정된 임계값을 초과하면 디코딩을 중단하고 거부 응답을 반환한다.
- Calibration & thresholds: 보정 및 임계값: 임계값은 모델별로 별도 보관된 정상 데이터셋을 사용해 설정하여 거짓 양성(과도한 거부) 비율을 낮게 유지하면서 탈옥 예시에서 진양성 탐지를 최대화한다.
- Evaluation pipeline: 평가 파이프라인: 저자들은 다양한 탈옥 공격(예: “시스템 프롬프트를 통한 탈옥”, “사고 흐름을 통한 탈옥”)을 수행하고 세 가지 기준을 비교한다: (a) 기본 디코딩, (b) 디코딩 시 제약(예: 토큰 수준 금지), (c) 생성 후 분류기.
전체 탐지 단계는 단일 GPU에서 토큰당 ≈ 5 ms의 지연을 추가하여 실시간 서비스에 실용적이다.
결과 및 발견
| 모델 | 기본 제한 해제 성공률 | 탐색 후 성공률 | 과도한 거부 (무해) |
|---|---|---|---|
| LLaMA‑13B | 78 % | 12 % | 2.3 % |
| Vicuna‑7B | 71 % | 9 % | 1.9 % |
| GPT‑2‑XL | 65 % | 8 % | 2.7 % |
- 탐지 속도: 프로브는 평균 2–3 토큰 후에 안전하지 않은 연속을 표시하며, 최종 유해 출력보다 훨씬 빨리 감지합니다.
- 유용성 보존: 500개의 정상 대화에 대한 인간 평가에서, 기본 모델에 비해 관련성, 유창성, 혹은 도움이 되는 정도에서 통계적으로 유의미한 감소가 없음을 보여줍니다.
- 견고성: 공격자가 “제한 해제” 프롬프트를 완화시키는 방식으로 적응하더라도, 프로브는 여전히 80 % 이상의 위반을 포착합니다. 이는 잠재적인 안전 신호가 모델의 지식을 근본적으로 변경하지 않고는 지우기 어렵다는 것을 의미합니다.
Practical Implications
- Plug‑and‑play safety layer: 플러그‑앤‑플레이 안전 레이어: 개발자는 디코더 전용 LLM에 프로빙 모듈을 감싸서 전체 모델을 재학습하지 않고도 추가 안전망을 확보할 수 있다.
- Reduced reliance on post‑hoc filters: 사후 필터 의존도 감소: 탐지가 생성 중에 이루어지므로 전체 응답을 스캔하는 비용이 많이 드는 다운스트림 분류기의 필요성이 줄어든다.
- Compliance & risk management: 컴플라이언스 및 위험 관리: 조기 중단은 감사 추적을 단순화한다—시스템은 안전 프로브가 트리거된 정확한 토큰을 기록하여 규제 보고에 도움이 된다.
- Edge deployment: 엣지 배포: 프로브는 매우 작으며(수백 개 파라미터) 기본 모델과 동일한 하드웨어에서 실행되므로 디바이스 내 어시스턴트나 저지연 클라우드 API에 적합하다.
- Complementary to alignment fine‑tuning: 정렬 파인튜닝과 보완적: 이미 RLHF나 인스트럭션 튜닝을 수행한 조직은 이 기법을 추가로 적용하여 새로운 탈옥 전략에 대한 다층 방어를 구현할 수 있다.
제한 사항 및 향후 연구
- 모델별 보정: 임계값은 모델마다 조정이 필요하며, 다양한 아키텍처에 적용 가능한 보편적인 설정은 달성되지 못했다.
- 적대적 적응: 공격자는 잠재적인 안전 신호를 “가리기” 위해 중립적인 filler 토큰을 삽입하는 등 시도할 수 있으며, 이는 탐지율을 낮출 수 있다.
- 안전 정의의 범위: 프로브는 특정 정책 집합으로 학습되었으며, 다관권 또는 도메인별 가이드라인으로 확장하려면 추가 라벨링 데이터가 필요하다.
- 생성 다양성: 프로브가 디코더‑전용 모델에서는 잘 작동하지만, 인코더‑디코더 또는 멀티모달 LLM에 대한 적용 가능성은 아직 탐구되지 않았다.
향후 연구 방향으로는 (1) 언어 모델과 프로브를 공동으로 학습시켜 안전 신호를 보다 명시적으로 만들기, (2) 더 긴 윈도우에 걸쳐 증거를 집계하는 다단계 프로빙 조사, 그리고 (3) 강화학습 기반 정렬과 통합하여 외부 감독 없이 스스로 거부하는 모델을 만드는 것이 포함된다.
저자
- Yinzhi Zhao
- Ming Wang
- Shi Feng
- Xiaocui Yang
- Daling Wang
- Yifei Zhang
논문 정보
- arXiv ID: 2601.10543v1
- 카테고리: cs.AI, cs.CL
- 출판일: 2026년 1월 15일
- PDF: PDF 다운로드