정렬 붕괴의 기하학: 파인튜닝이 안전을 깨뜨릴 때

발행: 3일 전 (2026년 2월 18일 오전 03:39 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.15799v1

개요

이미 “안전성에 맞게 정렬”된 대규모 언어 모델(LLM)을 파인튜닝하면, 하위 작업이 완전히 무해하고 학습 데이터에 해로운 내용이 전혀 포함되지 않았음에도 불구하고, 그 안전 가드레일이 예상치 못하게 약화될 수 있습니다. 논문 The Geometry of Alignment Collapse: When Fine‑Tuning Breaks Safety는 파인튜닝 업데이트가 안전에 중요한 방향과 직교한다는 일반적인 믿음이 오해를 불러일으키는 이유를 밝히고, 손실 지형의 기하학 자체가 시스템적으로 위험한 영역으로의 표류를 유발한다는 점을 보여줍니다.

핵심 기여

기하학적 불안정성 증명 – 미세 조정 그래디언트와 안전 방향 사이의 직교성이 구조적으로 불안정함을 그래디언트 하강 역학 하에서 입증합니다.
정렬 불안정 조건 (AIC) – 낮은 차원의 안전 부분공간, 급격한 곡률, 그리고 곡률 결합이라는 세 가지 기하학적 특성을 도입하여 이들이 결합될 때 안전성이 저하됨을 보장합니다.
4차 스케일링 법칙 – 정렬 손실이 훈련 시간의 네 번째 거듭에 비례하여 증가함을 보여주며, 안전 감소 속도를 정렬 매니폴드의 곡률 지표와 연결합니다.
곡률 인식 진단 프레임워크 – 헤시안 기반 날카로움 추정기와 같은 실용적인 도구 세트를 제공하여 언제 미세 조정 실행이 안전 한계를 초과할지 예측할 수 있게 합니다.
실증적 검증 – 여러 개방형 가중치 LLM(LLaMA‑2, Falcon 등)에서 다양한 온건한 미세 조정 작업(요약, 코드 생성, Q&A) 전반에 걸쳐 이론을 확인했습니다.

방법론

손실 풍경 모델링 – 저자들은 정렬된 모델의 파라미터 공간을 고차원 매니폴드로 보고, 안전 제약이 낮은 차원의 부분공간에 위치하며 비정상적으로 높은 곡률을 가진다고 가정합니다 (좁은 능선과 유사).
1차 vs. 2차 역학 – 초기 그래디언트 단계가 안전 부분공간에 직교할 수 있지만, 미세조정 손실의 곡률이 헤시안(Hessian)을 통해 두 번째 가속 항을 도입하여 궤적을 그 능선 쪽으로 끌어당깁니다.
AIC 도출 – 정렬 손실과 미세조정 손실에 대한 헤시안의 고유 구조를 분석함으로써, 다음 세 가지 조건이 충족될 때 드리프트가 보장된다고 밝힙니다:
- 낮은 차원의 안전 매니폴드
- 그 매니폴드에 대한 날카로운 고유값(높은 곡률)
- 미세조정 그래디언트와 안전 헤시안 사이의 비영(非零) 결합
이론적 스케일링 – 테일러 전개와 확률 미분 방정식 근사를 사용하여 정렬 손실이 다음과 같이 성장함을 증명합니다

$$L_{\text{align}}(t) \sim \kappa , t^{4},$$

여기서 $\kappa$는 곡률 및 결합 상수를 집계한 값입니다.
실험 파이프라인 – 여러 사전학습된 LLM을 깨끗한 데이터셋(예: WikiSumm, CodeParrot)으로 미세조정하면서 다음을 추적합니다:
- 정렬 손실 (보류된 안전 프로브를 통해)
- 그래디언트/헤시안 스펙트럼
- 표준 레드팀 테스트에 의해 유도된 비안전 생성의 발생

결과 및 발견

모델	파인‑튜닝 작업	10 k 단계 후 정렬 손실	안전하지 않은 생성 (↑)
LLaMA‑2‑7B	요약	0.12 → 0.48 (×4)	+23 %
Falcon‑40B	코드 생성	0.09 → 0.41 (×4.5)	+31 %
Mistral‑7B	QA	0.11 → 0.45 (×4.1)	+27 %

이차 vs. 사차 성장 – 단순 선형 또는 이차 모델은 관측된 안전 손실을 크게 과소평가하지만, 사차 법칙은 $R^{2}>0.96$ 으로 경험적 곡선에 잘 맞는다.
곡률을 예측 변수로 활용 – 안전 해시안의 최고 고유값이 150 이상인 모델은 더 빠르게 성능이 저하되며, 이는 이론적 연관성을 확인한다.
결합의 중요성 – 파인‑튜닝 손실이 안전 해시안에 아주 작은 투영(0.02 rad)이라도 공유하면 드리프트가 가속화되고, 완전히 분리된 작업(합성 제어)에서는 안전 손실이 거의 나타나지 않는다.

실용적 시사점

Safety‑first fine‑tuning pipelines need curvature checks – 파인튜닝 작업을 시작하기 전에, 안전 프로브에 대해 저비용 헤시안‑벡터 곱을 계산하여 날카로움을 추정한다; 높은 값은 정렬 붕괴 위험이 높음을 표시한다.
Curvature‑aware optimizers – Sharpness‑Aware Minimization (SAM)이나 2차 프리컨디셔너와 같은 기법은 가속 항을 완화시켜, 궤적이 위험한 능선에서 벗어나게 할 수 있다.
Dynamic safety monitoring – 파인튜닝 후 일회성 레드팀 테스트 대신, 훈련 중에 정렬 손실(또는 그 대리값)을 지속적으로 모니터링한다; 초기 급증은 조기 중단이나 롤백을 트리거할 수 있다.
Model‑card updates – 파인튜닝된 모델의 릴리즈 노트에 전통적인 지표(정확도, FLOPs)와 함께 “곡률 프로파일”을 포함해야 한다.
Tooling for developers – 논문의 진단 코드(오픈소스)를 인기 라이브러리(🤗 Transformers, DeepSpeed)에 래핑하여 AIC가 충족될 가능성이 있을 때 자동으로 개발자에게 경고할 수 있다.

제한 사항 및 향후 연구

헤시안 근사 비용 – 현재 분석은 전체 배치 헤시안 고유값 추정에 의존하는데, 이는 가장 큰 LLM에 대해 비용이 많이 듭니다; 확장 가능한 확률적 근사가 필요합니다.
작업 범위 – 실험은 텍스트 중심 작업에 초점을 맞추고 있으며, 이 현상이 멀티모달 파인튜닝(예: 비전‑언어 모델)으로 어떻게 적용되는지는 아직 미정입니다.
완전 검증되지 않은 완화 전략 – 곡률 인식 옵티마이저가 가능성을 보이지만, 다양한 다운스트림 애플리케이션에 대한 체계적인 벤치마크는 아직 진행 중입니다.
이론적 가정 – 4차 스케일링 법칙은 부드러운 손실 표면과 작은 학습률을 가정합니다; 대규모 배치 크기나 적응형 스케줄러를 사용하는 실제 훈련은 이를 벗어날 수 있습니다.

저자들은 기하학적 프레임워크를 메타‑러닝 시나리오로 확장하고, 곡률 정규화 사전 훈련을 탐구하며, 안전한 파인튜닝 관행을 벤치마크하기 위한 공개 “정렬 곡률 리더보드” 구축을 제안합니다.

저자

Max Springer
Chung Peng Lee
Blossom Metevier
Jane Castleman
Bohdan Turbal
Hayoung Jung
Zeyu Shen
Aleksandra Korolova

논문 정보

arXiv ID: 2602.15799v1
분류: cs.LG, cs.AI
출판일: 2026년 2월 17일
PDF: Download PDF

정렬 붕괴의 기하학: 파인튜닝이 안전을 깨뜨릴 때

개요

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[논문] MARS: Margin-Aware Reward-Modeling with Self-Refinement

[Paper] 다중 라운드 인간‑AI 협업 및 사용자 지정 요구사항

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장