[Paper] GLiGuard: 스키마 조건부 분류를 이용한 LLM 보호
Source: arXiv - 2605.07982v1
개요
이 논문은 GLiGuard를 소개한다. 이는 0.3 B 파라미터 규모의 경량 encoder‑only 모델로, 안전 관련 콘텐츠 검증을 생성형이 아닌 분류 문제로 다룬다. 작업 정의와 라벨 의미를 구조화된 “스키마” 형태로 입력에 직접 삽입함으로써, GLiGuard는 한 번의 포워드 패스만으로 수십 개의 안전 차원을 평가할 수 있으며, 7 B–27 B 규모의 더 큰 디코더 모델에 필적하는 가드레일 성능을 제공하면서 지연 시간과 비용을 크게 줄인다.
주요 기여
- 스키마 기반 인코딩: 프롬프트 안전성, 응답 안전성, 거부 감지, 14개의 세분화된 해악 카테고리, 그리고 11개의 탈옥 전략을 하나의 토큰 스키마에 압축하여 양방향 인코더에 입력합니다.
- 컴팩트 아키텍처: GLiNER2 인코더(≈300 M 파라미터)를 안전성 분류에 맞게 조정하여 일반 가드 모델에 비해 23–90× 크기 감소를 달성합니다.
- 한 번에 다중 측면 평가: 자동회귀 디코딩 없이 모든 안전 신호를 동시에 예측하여 최대 16× 높은 처리량과 17× 낮은 지연 시간을 가능하게 합니다.
- 경쟁력 있는 정확도: 9개의 기존 안전 벤치마크에서 7 B–27 B 디코더 기반 가드의 F1 점수와 동등하거나 이를 능가합니다.
- 오픈소스 공개: 코드, 사전 학습 가중치 및 스키마 템플릿이 공개되어 재현성과 커뮤니티 확장을 장려합니다.
방법론
- 작업 프레이밍 – 저자들은 안전 모더레이션을 다중 라벨 분류 문제로 재구성합니다. 각 안전 차원(예: “성적 콘텐츠”, “정치적 설득”, “우회 시도”)을 이진 라벨로 취급합니다.
- 스키마 구성 – 주어진 사용자 프롬프트와 모델 응답에 대해 구조화된 토큰 스키마를 구축합니다. 스키마에는 다음이 포함됩니다:
- 모델이 평가해야 할 내용을 설명하는 작업 정의 블록(예: “응답이 안전한가?”).
- 가능한 카테고리를 짧은 텍스트 설명과 함께 나열하는 라벨 블록.
- 스키마 뒤에 배치된 입력 텍스트(프롬프트 + 응답).
이 스키마는 토큰화되어 단일 시퀀스로 인코더에 입력됩니다.
- 인코더 적응 – GLiNER2를 시작점으로, 저자들은 14개의 해악 카테고리와 11개의 우회 전술을 포괄하는 선별된 안전 데이터셋으로 양방향 인코더를 미세 조정합니다. 모델은 라벨당 하나씩의 로짓 벡터를 출력하며, 이를 임계값 처리해 이진 결정을 내립니다.
- 추론 유연성 – 스키마가 입력에 포함되어 있기 때문에, 새로운 안전 카테고리를 추가하거나 기존 카테고리를 수정할 때 핵심 모델을 재학습할 필요가 없습니다—스키마 텍스트만 편집하면 됩니다.
- 평가 – 시스템은 9개의 공개 안전 데이터셋(예: SafeRLHF, Anthropic’s HH, 우회 코퍼스)에서 벤치마크됩니다. 측정 지표는 매크로 평균 F1, 지연 시간(ms), 처리량(쿼리/초) 등에 중점을 둡니다.
Results & Findings
| Metric | GLiGuard (0.3 B) | 7 B Decoder Guard | 27 B Decoder Guard |
|---|---|---|---|
| Avg. F1 (across benchmarks) | 0.84 | 0.85 | 0.86 |
| Latency (ms per query) | ≈30 ms | ≈500 ms | ≈800 ms |
| Throughput (qps on A100) | ≈1,200 | ≈75 | ≈45 |
| Parameter count | 300 M | 7 B | 27 B |
- Accuracy: GLiGuard의 F1 점수는 훨씬 큰 모델들에 비해 1–2 % 차이로, 잘 정제된 인코더가 미묘한 안전 신호를 포착할 수 있음을 보여줍니다.
- Speed: 비자동 회귀 추론을 통해 16배 높은 처리량과 17배 낮은 지연 시간을 달성하여, 대규모 요청에서도 실시간 모더레이션이 가능해집니다.
- Scalability: 스키마에 새로운 라벨 블록을 추가해도 성능이 저하되지 않아 설계의 유연성을 확인할 수 있습니다.
Practical Implications
- Cost‑effective moderation – 300 M 파라미터 가드를 배포하면 GPU 메모리 사용량과 클라우드 컴퓨팅 비용을 크게 줄일 수 있어, 스타트업 및 엣지 서비스가 고가의 하드웨어 없이도 안전 검사를 삽입할 수 있습니다.
- Real‑time user‑facing apps – 챗봇, 코드 어시스턴트, 생성 검색 인터페이스가 눈에 띄는 지연 없이 다중 측면 안전 정책을 적용할 수 있어 사용자 신뢰를 향상시킵니다.
- Rapid policy updates – 기업은 스키마 템플릿만 업데이트하면 새로운 안전 카테고리(예: 떠오르는 허위 정보 전술)를 출시할 수 있어, 긴 모델 재학습 주기를 피할 수 있습니다.
- Multi‑modal pipelines – GLiGuard가 인코더 전용이기 때문에 다른 인코더(예: 검색 또는 임베딩 모델)와 단일 추론 그래프에 쌓아 사용할 수 있어, 엔드‑투‑엔드 파이프라인을 더욱 간소화합니다.
- Open‑source ecosystem – 공개된 코드베이스는 커뮤니티 기여를 장려합니다—맞춤 스키마, 도메인 특화 파인튜닝, 기존 LLM 서빙 스택(e.g., vLLM, TGI)과의 통합 등.
제한 사항 및 향후 작업
- 도메인 범위 – 훈련 데이터는 폭넓지만, 틈새 혹은 급변하는 유해 콘텐츠 유형을 놓칠 수 있으며; 분포 외 프롬프트에서 성능이 저하될 수 있습니다.
- 이진 라벨링 세분화 – 현재 스키마는 카테고리별 이진 결정을 출력합니다; 보다 풍부한 신뢰도 점수나 계층적 라벨링이 하위 처리 개선에 도움이 될 수 있습니다.
- 인코더 용량 한계 – 현재 0.3 B가 잘 작동하지만, 수백 개의 안전 차원으로 확장하려면 결국 더 큰 인코더나 보다 정교한 스키마 설계가 필요할 수 있습니다.
- 적대적 견고성 – 논문에서는 의도를 고의로 은폐하는 정교한 탈옥 시도가 여전히 통과할 수 있음을 지적합니다; 향후 작업에서는 적대적 학습 및 동적 스키마 적응을 도입하는 것을 목표로 합니다.
전체적으로, GLiGuard는 신중하게 조건화된 인코더가 컴퓨팅 비용의 일부만으로도 산업 수준의 안전 모더레이션을 제공할 수 있음을 보여주며, 신뢰할 수 있는 LLM 서비스를 보다 넓고 실시간으로 배포할 수 있는 길을 열어줍니다.
저자
- Urchade Zaratiana
- Mary Newhauser
- George Hurn-Maloney
- Ash Lewis
논문 정보
- arXiv ID: 2605.07982v1
- Categories: cs.CL, cs.CR
- Published: 2026년 5월 8일
- PDF: Download PDF