언어 모델의 거부는 단일 방향에 의해 매개된다

발행: 2일 전 (2026년 5월 2일 PM 10:15 GMT+9)

3 분 소요

Source: Hacker News

Abstract

대화형 대규모 언어 모델은 지시 수행과 안전성을 모두 위해 파인튜닝되어, 친절한 요청은 따르고 해로운 요청은 거부하는 모델이 된다. 이러한 거부 행동은 다양한 챗 모델에서 널리 나타나지만, 그 근본 메커니즘은 아직 충분히 이해되지 않았다. 본 연구에서는 72 B 파라미터까지 규모가 다양한 13개의 인기 오픈소스 챗 모델을 대상으로, 거부가 일차원 서브스페이스에 의해 매개된다는 것을 보여준다. 구체적으로, 각 모델에 대해 하나의 방향을 찾았으며, 이 방향을 모델의 잔차 스트림 활성화에서 제거하면 해로운 지시를 거부하지 않게 되고, 반대로 이 방향을 추가하면 무해한 지시에도 거부가 발생한다. 이 통찰을 활용해, 다른 능력에 최소한의 영향을 주면서 거부를 외과적으로 비활성화하는 새로운 화이트박스 탈옥 방법을 제안한다. 마지막으로, 적대적 접미사가 어떻게 거부 매개 방향의 전파를 억제하는지 메커니즘을 분석한다. 우리의 발견은 현재 안전 파인튜닝 방법의 취약성을 강조한다. 더 나아가, 모델 내부 구조에 대한 이해가 모델 행동을 제어하는 실용적인 방법 개발에 어떻게 활용될 수 있는지를 보여준다.

Subjects

Machine Learning (cs.LG)
Artificial Intelligence (cs.AI)
Computation and Language (cs.CL)

Citation

Cite as: arXiv:2406.11717

(Or see the latest version: arXiv:2406.11717v3)

DOI

https://doi.org/10.48550/arXiv.2406.11717 – arXiv‑issued DOI via DataCite

Submission history

v1 – Mon, 17 Jun 2024 16:36:12 UTC (237 KB) – submitted by Andy Arditi (view email)
v2 – Mon, 15 Jul 2024 11:53:41 UTC (183 KB)
v3 – Wed, 30 Oct 2024 18:57:07 UTC (194 KB)

언어 모델의 거부는 단일 방향에 의해 매개된다

Abstract

Subjects

Citation

DOI

Submission history

관련 글

AI ‘Intelligence‑Authority’ 격차: 왜 당신의 에이전트는 Deterministic Handbrake가 필요한가

실험: 반복 사용이 RAG와 유사한 설정에서 ChatGPT 5.4 출력에 영향을 미칩니까?

하버드 연구에서 AI가 응급실 의사보다 더 정확한 진단을 제공했다

Claude와 Microsoft Copilot, 켄터키 더비 우승자를 다시 예측에 실패