언어 모델의 거부는 단일 방향에 의해 매개된다
Source: Hacker News
Abstract
대화형 대규모 언어 모델은 지시 수행과 안전성을 모두 위해 파인튜닝되어, 친절한 요청은 따르고 해로운 요청은 거부하는 모델이 된다. 이러한 거부 행동은 다양한 챗 모델에서 널리 나타나지만, 그 근본 메커니즘은 아직 충분히 이해되지 않았다. 본 연구에서는 72 B 파라미터까지 규모가 다양한 13개의 인기 오픈소스 챗 모델을 대상으로, 거부가 일차원 서브스페이스에 의해 매개된다는 것을 보여준다. 구체적으로, 각 모델에 대해 하나의 방향을 찾았으며, 이 방향을 모델의 잔차 스트림 활성화에서 제거하면 해로운 지시를 거부하지 않게 되고, 반대로 이 방향을 추가하면 무해한 지시에도 거부가 발생한다. 이 통찰을 활용해, 다른 능력에 최소한의 영향을 주면서 거부를 외과적으로 비활성화하는 새로운 화이트박스 탈옥 방법을 제안한다. 마지막으로, 적대적 접미사가 어떻게 거부 매개 방향의 전파를 억제하는지 메커니즘을 분석한다. 우리의 발견은 현재 안전 파인튜닝 방법의 취약성을 강조한다. 더 나아가, 모델 내부 구조에 대한 이해가 모델 행동을 제어하는 실용적인 방법 개발에 어떻게 활용될 수 있는지를 보여준다.
Subjects
- Machine Learning (cs.LG)
- Artificial Intelligence (cs.AI)
- Computation and Language (cs.CL)
Citation
(Or see the latest version: arXiv:2406.11717v3)
DOI
https://doi.org/10.48550/arXiv.2406.11717 – arXiv‑issued DOI via DataCite
Submission history
- v1 – Mon, 17 Jun 2024 16:36:12 UTC (237 KB) – submitted by Andy Arditi (view email)
- v2 – Mon, 15 Jul 2024 11:53:41 UTC (183 KB)
- v3 – Wed, 30 Oct 2024 18:57:07 UTC (194 KB)