[Paper] 안전하게 머무르기 학습: 파인튜닝 중 안전 저하에 대한 적응형 정규화

발행: 3일 전 (2026년 2월 20일 오전 01:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.17546v1

Overview

대규모 언어 모델(LLM)을 파인튜닝하면 원래의 지시‑추종 버전에 내장된 안전 가드레일이 의도치 않게 약화될 수 있습니다. Goel *et al.*은 파인튜닝 중 모델의 “안전 위험”을 지속적으로 모니터링하고 위험한 업데이트를 신뢰할 수 있는 안전 기준 정책으로 선택적으로 되돌리는 adaptive regularization 프레임워크를 제안합니다. 그 결과, 새로운 작업에 모델을 적용하거나 적대적인 프롬프트에 노출시켜도 모델을 유용하면서 안전하게 유지할 수 있는 간단한, inference‑free 기법이 됩니다.

주요 기여

위험 인식 정규화: 안전 위험에 대한 실시간 추정에 따라 정규화를 강화하거나 완화하는 동적 손실 항을 도입합니다.
두 가지 위험 추정기:
1. Safety‑Critic 판정자 – 각 훈련 배치를 평가하는 블랙박스 “해악 점수” 모델.
2. 활성화 기반 예측기 – 중간 활성화를 읽어 해로운 의도를 추론하는 경량 분류기.
모델군 전반에 걸친 실증 검증 (예: LLaMA, Falcon) 및 공격 시나리오에서, 다운스트림 작업 성능을 해치지 않으면서 공격 성공률을 일관되게 감소시킴을 보여줍니다.
추론 오버헤드 제로: 안전 가드레일은 훈련 중에만 적용되므로 배포된 모델은 기존 속도로 실행됩니다.
사전 생성 활성화로부터 해로운 의도를 예측할 수 있음을 입증, 저비용 안전 모니터링을 위한 새로운 길을 엽니다.

방법론

베이스라인 파인튜닝 – 대상 모델을 하위 데이터셋에 표준 감독 손실을 사용해 업데이트합니다.
배치별 안전 위험 추정
- 판사 기반: 별도의 “Safety Critic”(안전 비평가) 모델이 배치를 평가하고 스칼라 해악 점수(높을수록 위험)를 반환합니다.
- 활성화 기반: 작은 피드포워드 분류기를 사전에 라벨이 지정된 활성화 집합(안전 vs. 비안전)으로 학습시킨 뒤, 실시간으로 위험 확률을 예측합니다.
적응형 정규화 항
- 위험 점수가 미리 정의된 임계값을 초과하면 업데이트가 정규화됩니다: KL‑다이버전스(또는 L2) 페널티가 파인튜닝된 모델의 출력 분포가 고정된 안전 기준 모델과 가깝게 유지되도록 강제합니다.
- 낮은 위험 배치는 일반 손실만으로 학습되어, 안전이 문제가 되지 않는 경우 모델이 완전히 적응할 수 있게 합니다.
학습 루프 – 위험 추정기와 적응형 정규화기가 매 단계 호출되며, 최종 모델에 추가 파라미터가 추가되지 않습니다.

전체 배치 b에 대한 손실은 다음과 같습니다:

[ \mathcal{L}b = \mathcal{L}{\text{task}}(b) + \lambda(b),\mathcal{L}_{\text{reg}}(b) ]

여기서 (\lambda(b))는 추정된 위험에 따라 증가하는 스칼라입니다.

결과 및 발견

설정	표준 파인‑튜닝 공격 성공률	Adaptive Reg. (Judge)	Adaptive Reg. (Activations)
LLaMA‑7B, 탈옥 프롬프트	42 %	19 %	21 %
Falcon‑40B, 유해 연속 생성	35 %	16 %	18 %
다운스트림 QA (SQuAD) 정확도	84 %	83 %	84 %
요약 ROUGE‑L	46.2	45.9	46.0

핵심 요약

두 위험 추정기 모두 공격 성공률을 대략 절반으로 낮추면서 작업 성능을 기준선 대비 1 % 이내로 유지합니다.
활성화 기반 예측기는 극소량의 추가 학습 비용(≈ 0.5 % of total FLOPs)으로 비슷한 안전 향상을 달성합니다.
안전 비평가는 학습 시에만 사용되므로 추론 시 지연 페널티가 없습니다.

Ablation 실험 결과 (i) 위험‑종속 λ를 사용하는 적응 스케줄이 정적이고 균일하게 강한 정규화보다 우수하며, (ii) 안전 비평가의 높은 재현율 특성이 미묘한 해로운 의도를 포착하는 데 핵심임을 보여줍니다.

Practical Implications

Safer product releases: 기업은 도메인‑특화 데이터(예: 의료 기록, 금융)로 자체 LLM을 fine‑tune하면서 모델이 위험한 조언을 hallucinating할까 두려워할 필요가 없습니다.
Adversarial robustness for APIs: 서비스 제공자는 adaptive regularizer를 fine‑tuning 파이프라인에 통합하여 content filters를 우회하려는 jailbreak 시도에 대한 추가 방어선을 제공합니다.
Low‑cost safety monitoring: activation‑based risk predictor는 모델 패밀리당 한 번만 학습하고 여러 fine‑tuning 작업에 재사용할 수 있어, 메인 훈련 루프와 동일한 하드웨어에서 실행되는 저렴한 “safety thermostat”를 제공합니다.
Regulatory compliance: 모델 업데이트 중에 문서화된 safety‑risk signal을 유지하면, safety‑related 변경 사항의 추적성을 요구하는 새로운 AI 거버넌스 요구사항을 충족하는 데 도움이 됩니다.

Overall, the technique lets developers keep the utility gains of fine‑tuning while automatically throttling updates that could degrade safety, all without changing the model’s runtime footprint.

제한 사항 및 향후 연구

위험 추정기 품질이 중요합니다: 안전 비평가는 훈련 데이터만큼만 좋으며, 비평가가 한 번도 본 적 없는 새로운 해로운 패턴이 나타나면 위험이 과소 평가될 수 있습니다.
임계값 조정: 위험 임계값과 정규화 강도를 선택하는 데는 여전히 모델/작업별 경험적 조정이 필요하며, 이는 향후 작업에서 자동화될 수 있습니다.
안전 정의의 범위: 이 논문은 기존 독성/탈옥 벤치마크가 포착하는 “해로운 의도”에 초점을 맞추고 있으며, 공정성, 편향, 허위 정보와 같은 더 넓은 개념은 직접 다루지 않습니다.
극도로 큰 모델에 대한 확장성: 이 방법은 추론 비용을 추가하지 않지만, 안전 비평가(또는 활성화 분류기)를 통한 추가 전방 패스가 훈련 계산량을 약간 증가시킵니다; 수십억 파라미터 모델로 확장하려면 보다 효율적인 위험 추정기가 필요할 수 있습니다.

향후 연구 방향으로는 프레임워크를 다중 목표 안전(예: 편향 + 독성)으로 확장하고, 외부 평가자에 의존하지 않는 자체 지도 위험 신호를 탐구하며, 모델이 여러 미세조정 사이클을 거치며 진화하는 지속 학습 설정에 적응형 정규화를 통합하는 것이 포함됩니다.

저자

Jyotin Goel
Souvik Maji
Pratik Mazumder

논문 정보

arXiv ID: 2602.17546v1
Categories: cs.CL, cs.LG
Published: 2026년 2월 19일
PDF: Download PDF

[Paper] 안전하게 머무르기 학습: 파인튜닝 중 안전 저하에 대한 적응형 정규화

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] 캐스케이드 동등성 가설: 언제 Speech LLM이 ASR→LLM 파이프라인처럼 동작하는가?

[Paper] KLong: 극도로 긴‑시간 지평 작업을 위한 LLM 에이전트 훈련