语言模型的拒绝由单一方向调节

发布: (2026年5月2日 GMT+8 21:15)
2 分钟阅读

Source: Hacker News

摘要

对话式大型语言模型经过指令遵循和安全性的微调,使得模型能够遵从良性请求但拒绝有害请求。虽然这种拒绝行为在聊天模型中普遍存在,但其底层机制仍不清晰。在本工作中,我们发现拒绝行为由一个一维子空间介导,覆盖了 13 种流行的开源聊天模型,规模最高达 72 B 参数。具体而言,对于每个模型,我们找到一个唯一方向,使得从模型的残差流激活中抹去该方向即可阻止模型拒绝有害指令,而加入该方向则会在甚至无害指令上触发拒绝。基于此洞见,我们提出了一种新颖的白盒 jailbreak 方法,能够以最小的副作用外科式地禁用拒绝行为。最后,我们对对抗后缀如何抑制拒绝介导方向的传播进行机制分析。我们的发现凸显了当前安全微调方法的脆弱性。更广泛地说,本工作展示了对模型内部结构的理解如何被用于开发实用的模型行为控制方法。

主题

  • Machine Learning (cs.LG)
  • Artificial Intelligence (cs.AI)
  • Computation and Language (cs.CL)

引用

Cite as: arXiv:2406.11717

(Or see the latest version: arXiv:2406.11717v3)

DOI

https://doi.org/10.48550/arXiv.2406.11717 – arXiv‑issued DOI via DataCite

提交历史

  • v1 – Mon, 17 Jun 2024 16:36:12 UTC (237 KB) – submitted by Andy Arditi (view email)
  • v2 – Mon, 15 Jul 2024 11:53:41 UTC (183 KB)
  • v3 – Wed, 30 Oct 2024 18:57:07 UTC (194 KB)
0 浏览
Back to Blog

相关文章

阅读更多 »