[Paper] Large Language Models를 탈옥 공격으로부터 방어하기 위한 In-Decoding Safety-Awareness Probing

발행: 3주 전 (2026년 1월 16일 오전 01:09 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2601.10543v1

Overview

대형 언어 모델(LLM)은 채팅 어시스턴트부터 코드 생성기까지 다양한 제품에 탑재되고 있지만, 안전 정렬 작업에도 불구하고 금지된 또는 유해한 콘텐츠를 생성하도록 유도되는 “탈옥(jailbreak)”이 여전히 놀라울 정도로 쉽습니다. 이 논문은 토큰 생성 중에 LLM이 내보내는 숨겨진 안전 신호를 밝혀내고, 그 신호를 표면화함으로써 모델의 유용성을 희생하지 않으면서 탈옥을 조기에 차단할 수 있음을 보여줍니다.

주요 기여

잠재적 안전 인식: 모델이 결국 안전하지 않은 텍스트를 출력하더라도, 내부 은닉 상태에 이미 안전 위반을 나타내는 단서가 포함되어 있음을 보여줍니다.
디코딩 중 탐색 기법: 이러한 단서를 실시간으로 읽어 유해 콘텐츠가 생성되기 전에 중단하는 경량 탐색 모듈을 소개합니다.
광범위한 실증 검증: 다양한 최신 탈옥 프롬프트(예: “역할‑플레이”, “자기‑정제”, “프롬프트 주입”)에 대해 여러 LLM 계열(GPT‑2, LLaMA, Vicuna)에서 방법을 테스트합니다.
낮은 과도 거부: 기존 사후 탐지기와 비교해 안전하지 않은 출력을 거부하면서 정상 요청을 거부하는 비율이 동등하거나 더 낮음을 보여줍니다.
오픈‑소스 공개: 코드와 사전 학습된 탐색 헤드를 제공하여 기존 추론 파이프라인에 쉽게 통합할 수 있게 합니다.

방법론

Signal discovery: 신호 탐지: 저자들은 작은 분류기를 숨겨진 상태 벡터(각 토큰이 샘플링되기 직전의 활성화)에 미세 조정하여 다음 토큰이 안전 정책을 위반할지 예측한다.
Safety‑aware decoding: 안전 인식 디코딩: 생성 중에 각 토큰 이후에 탐지기의 신뢰 점수를 확인한다. 점수가 보정된 임계값을 초과하면 디코딩을 중단하고 거부 응답을 반환한다.
Calibration & thresholds: 보정 및 임계값: 임계값은 모델별로 별도 보관된 정상 데이터셋을 사용해 설정하여 거짓 양성(과도한 거부) 비율을 낮게 유지하면서 탈옥 예시에서 진양성 탐지를 최대화한다.
Evaluation pipeline: 평가 파이프라인: 저자들은 다양한 탈옥 공격(예: “시스템 프롬프트를 통한 탈옥”, “사고 흐름을 통한 탈옥”)을 수행하고 세 가지 기준을 비교한다: (a) 기본 디코딩, (b) 디코딩 시 제약(예: 토큰 수준 금지), (c) 생성 후 분류기.

전체 탐지 단계는 단일 GPU에서 토큰당 ≈ 5 ms의 지연을 추가하여 실시간 서비스에 실용적이다.

결과 및 발견

모델	기본 제한 해제 성공률	탐색 후 성공률	과도한 거부 (무해)
LLaMA‑13B	78 %	12 %	2.3 %
Vicuna‑7B	71 %	9 %	1.9 %
GPT‑2‑XL	65 %	8 %	2.7 %

탐지 속도: 프로브는 평균 2–3 토큰 후에 안전하지 않은 연속을 표시하며, 최종 유해 출력보다 훨씬 빨리 감지합니다.
유용성 보존: 500개의 정상 대화에 대한 인간 평가에서, 기본 모델에 비해 관련성, 유창성, 혹은 도움이 되는 정도에서 통계적으로 유의미한 감소가 없음을 보여줍니다.
견고성: 공격자가 “제한 해제” 프롬프트를 완화시키는 방식으로 적응하더라도, 프로브는 여전히 80 % 이상의 위반을 포착합니다. 이는 잠재적인 안전 신호가 모델의 지식을 근본적으로 변경하지 않고는 지우기 어렵다는 것을 의미합니다.

Practical Implications

Plug‑and‑play safety layer: 플러그‑앤‑플레이 안전 레이어: 개발자는 디코더 전용 LLM에 프로빙 모듈을 감싸서 전체 모델을 재학습하지 않고도 추가 안전망을 확보할 수 있다.
Reduced reliance on post‑hoc filters: 사후 필터 의존도 감소: 탐지가 생성 중에 이루어지므로 전체 응답을 스캔하는 비용이 많이 드는 다운스트림 분류기의 필요성이 줄어든다.
Compliance & risk management: 컴플라이언스 및 위험 관리: 조기 중단은 감사 추적을 단순화한다—시스템은 안전 프로브가 트리거된 정확한 토큰을 기록하여 규제 보고에 도움이 된다.
Edge deployment: 엣지 배포: 프로브는 매우 작으며(수백 개 파라미터) 기본 모델과 동일한 하드웨어에서 실행되므로 디바이스 내 어시스턴트나 저지연 클라우드 API에 적합하다.
Complementary to alignment fine‑tuning: 정렬 파인튜닝과 보완적: 이미 RLHF나 인스트럭션 튜닝을 수행한 조직은 이 기법을 추가로 적용하여 새로운 탈옥 전략에 대한 다층 방어를 구현할 수 있다.

제한 사항 및 향후 연구

모델별 보정: 임계값은 모델마다 조정이 필요하며, 다양한 아키텍처에 적용 가능한 보편적인 설정은 달성되지 못했다.
적대적 적응: 공격자는 잠재적인 안전 신호를 “가리기” 위해 중립적인 filler 토큰을 삽입하는 등 시도할 수 있으며, 이는 탐지율을 낮출 수 있다.
안전 정의의 범위: 프로브는 특정 정책 집합으로 학습되었으며, 다관권 또는 도메인별 가이드라인으로 확장하려면 추가 라벨링 데이터가 필요하다.
생성 다양성: 프로브가 디코더‑전용 모델에서는 잘 작동하지만, 인코더‑디코더 또는 멀티모달 LLM에 대한 적용 가능성은 아직 탐구되지 않았다.

향후 연구 방향으로는 (1) 언어 모델과 프로브를 공동으로 학습시켜 안전 신호를 보다 명시적으로 만들기, (2) 더 긴 윈도우에 걸쳐 증거를 집계하는 다단계 프로빙 조사, 그리고 (3) 강화학습 기반 정렬과 통합하여 외부 감독 없이 스스로 거부하는 모델을 만드는 것이 포함된다.

저자

Yinzhi Zhao
Ming Wang
Shi Feng
Xiaocui Yang
Daling Wang
Yifei Zhang

논문 정보

arXiv ID: 2601.10543v1
카테고리: cs.AI, cs.CL
출판일: 2026년 1월 15일
PDF: PDF 다운로드

[Paper] Large Language Models를 탈옥 공격으로부터 방어하기 위한 In-Decoding Safety-Awareness Probing

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 설명은 대규모 추론 모델에 걸쳐 일반화될까?

[Paper] Gemini용 프로덕션 준비 프로브 구축

[Paper] 독사과 효과: AI agents의 기술 확장을 통한 중개 시장 전략적 조작

[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 멀티-헤드 잠재 어텐션을 비전-언어 모델에 적용