[Paper] GLiGuard: 스키마 조건부 분류를 이용한 LLM 보호

발행: (2026년 5월 9일 AM 01:44 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2605.07982v1

개요

이 논문은 GLiGuard를 소개한다. 이는 0.3 B 파라미터 규모의 경량 encoder‑only 모델로, 안전 관련 콘텐츠 검증을 생성형이 아닌 분류 문제로 다룬다. 작업 정의와 라벨 의미를 구조화된 “스키마” 형태로 입력에 직접 삽입함으로써, GLiGuard는 한 번의 포워드 패스만으로 수십 개의 안전 차원을 평가할 수 있으며, 7 B–27 B 규모의 더 큰 디코더 모델에 필적하는 가드레일 성능을 제공하면서 지연 시간과 비용을 크게 줄인다.

주요 기여

  • 스키마 기반 인코딩: 프롬프트 안전성, 응답 안전성, 거부 감지, 14개의 세분화된 해악 카테고리, 그리고 11개의 탈옥 전략을 하나의 토큰 스키마에 압축하여 양방향 인코더에 입력합니다.
  • 컴팩트 아키텍처: GLiNER2 인코더(≈300 M 파라미터)를 안전성 분류에 맞게 조정하여 일반 가드 모델에 비해 23–90× 크기 감소를 달성합니다.
  • 한 번에 다중 측면 평가: 자동회귀 디코딩 없이 모든 안전 신호를 동시에 예측하여 최대 16× 높은 처리량과 17× 낮은 지연 시간을 가능하게 합니다.
  • 경쟁력 있는 정확도: 9개의 기존 안전 벤치마크에서 7 B–27 B 디코더 기반 가드의 F1 점수와 동등하거나 이를 능가합니다.
  • 오픈소스 공개: 코드, 사전 학습 가중치 및 스키마 템플릿이 공개되어 재현성과 커뮤니티 확장을 장려합니다.

방법론

  1. 작업 프레이밍 – 저자들은 안전 모더레이션을 다중 라벨 분류 문제로 재구성합니다. 각 안전 차원(예: “성적 콘텐츠”, “정치적 설득”, “우회 시도”)을 이진 라벨로 취급합니다.
  2. 스키마 구성 – 주어진 사용자 프롬프트와 모델 응답에 대해 구조화된 토큰 스키마를 구축합니다. 스키마에는 다음이 포함됩니다:
    • 모델이 평가해야 할 내용을 설명하는 작업 정의 블록(예: “응답이 안전한가?”).
    • 가능한 카테고리를 짧은 텍스트 설명과 함께 나열하는 라벨 블록.
    • 스키마 뒤에 배치된 입력 텍스트(프롬프트 + 응답).
      이 스키마는 토큰화되어 단일 시퀀스로 인코더에 입력됩니다.
  3. 인코더 적응 – GLiNER2를 시작점으로, 저자들은 14개의 해악 카테고리와 11개의 우회 전술을 포괄하는 선별된 안전 데이터셋으로 양방향 인코더를 미세 조정합니다. 모델은 라벨당 하나씩의 로짓 벡터를 출력하며, 이를 임계값 처리해 이진 결정을 내립니다.
  4. 추론 유연성 – 스키마가 입력에 포함되어 있기 때문에, 새로운 안전 카테고리를 추가하거나 기존 카테고리를 수정할 때 핵심 모델을 재학습할 필요가 없습니다—스키마 텍스트만 편집하면 됩니다.
  5. 평가 – 시스템은 9개의 공개 안전 데이터셋(예: SafeRLHF, Anthropic’s HH, 우회 코퍼스)에서 벤치마크됩니다. 측정 지표는 매크로 평균 F1, 지연 시간(ms), 처리량(쿼리/초) 등에 중점을 둡니다.

Results & Findings

MetricGLiGuard (0.3 B)7 B Decoder Guard27 B Decoder Guard
Avg. F1 (across benchmarks)0.840.850.86
Latency (ms per query)≈30 ms≈500 ms≈800 ms
Throughput (qps on A100)≈1,200≈75≈45
Parameter count300 M7 B27 B
  • Accuracy: GLiGuard의 F1 점수는 훨씬 큰 모델들에 비해 1–2 % 차이로, 잘 정제된 인코더가 미묘한 안전 신호를 포착할 수 있음을 보여줍니다.
  • Speed: 비자동 회귀 추론을 통해 16배 높은 처리량과 17배 낮은 지연 시간을 달성하여, 대규모 요청에서도 실시간 모더레이션이 가능해집니다.
  • Scalability: 스키마에 새로운 라벨 블록을 추가해도 성능이 저하되지 않아 설계의 유연성을 확인할 수 있습니다.

Practical Implications

  • Cost‑effective moderation – 300 M 파라미터 가드를 배포하면 GPU 메모리 사용량과 클라우드 컴퓨팅 비용을 크게 줄일 수 있어, 스타트업 및 엣지 서비스가 고가의 하드웨어 없이도 안전 검사를 삽입할 수 있습니다.
  • Real‑time user‑facing apps – 챗봇, 코드 어시스턴트, 생성 검색 인터페이스가 눈에 띄는 지연 없이 다중 측면 안전 정책을 적용할 수 있어 사용자 신뢰를 향상시킵니다.
  • Rapid policy updates – 기업은 스키마 템플릿만 업데이트하면 새로운 안전 카테고리(예: 떠오르는 허위 정보 전술)를 출시할 수 있어, 긴 모델 재학습 주기를 피할 수 있습니다.
  • Multi‑modal pipelines – GLiGuard가 인코더 전용이기 때문에 다른 인코더(예: 검색 또는 임베딩 모델)와 단일 추론 그래프에 쌓아 사용할 수 있어, 엔드‑투‑엔드 파이프라인을 더욱 간소화합니다.
  • Open‑source ecosystem – 공개된 코드베이스는 커뮤니티 기여를 장려합니다—맞춤 스키마, 도메인 특화 파인튜닝, 기존 LLM 서빙 스택(e.g., vLLM, TGI)과의 통합 등.

제한 사항 및 향후 작업

  • 도메인 범위 – 훈련 데이터는 폭넓지만, 틈새 혹은 급변하는 유해 콘텐츠 유형을 놓칠 수 있으며; 분포 외 프롬프트에서 성능이 저하될 수 있습니다.
  • 이진 라벨링 세분화 – 현재 스키마는 카테고리별 이진 결정을 출력합니다; 보다 풍부한 신뢰도 점수나 계층적 라벨링이 하위 처리 개선에 도움이 될 수 있습니다.
  • 인코더 용량 한계 – 현재 0.3 B가 잘 작동하지만, 수백 개의 안전 차원으로 확장하려면 결국 더 큰 인코더나 보다 정교한 스키마 설계가 필요할 수 있습니다.
  • 적대적 견고성 – 논문에서는 의도를 고의로 은폐하는 정교한 탈옥 시도가 여전히 통과할 수 있음을 지적합니다; 향후 작업에서는 적대적 학습 및 동적 스키마 적응을 도입하는 것을 목표로 합니다.

전체적으로, GLiGuard는 신중하게 조건화된 인코더가 컴퓨팅 비용의 일부만으로도 산업 수준의 안전 모더레이션을 제공할 수 있음을 보여주며, 신뢰할 수 있는 LLM 서비스를 보다 넓고 실시간으로 배포할 수 있는 길을 열어줍니다.

저자

  • Urchade Zaratiana
  • Mary Newhauser
  • George Hurn-Maloney
  • Ash Lewis

논문 정보

  • arXiv ID: 2605.07982v1
  • Categories: cs.CL, cs.CR
  • Published: 2026년 5월 8일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »