揭示大型语言模型中隐藏的偏见、情绪、人格和抽象概念
Source: MIT News - AI
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保留原有的格式。
摘要
到目前为止,ChatGPT、Claude 以及其他大型语言模型已经积累了如此大量的人类知识,以至于它们远非简单的答案生成器;它们还能够表达抽象概念,如语气、人格、偏见和情绪。然而,这些模型究竟是如何从所包含的知识中表示抽象概念的,却并不明显。
来自麻省理工学院和加州大学圣迭戈分校的团队开发了一种方法,用于测试大型语言模型(LLM)是否包含隐藏的偏见、人格、情绪或其他抽象概念。他们的方法能够定位模型内部编码感兴趣概念的连接,然后操控——或“引导”——这些连接,以在模型被提示给出答案时加强或削弱该概念。
研究人员证明,他们的方法能够快速根除并引导当今一些最大型 LLM 中的 500 多个通用概念。例如,他们能够锁定模型对 “社交影响者” 和 “阴谋论者” 等人格的表征,以及 “对婚姻的恐惧” 和 “波士顿的粉丝” 等立场的表征。随后,他们调节这些表征,以在模型生成的任何答案中增强或最小化这些概念。
在 “阴谋论者” 概念的案例中,团队成功地在当今最大的视觉‑语言模型之一中识别出该概念的表征。当他们增强该表征并提示模型解释阿波罗 17 号拍摄的著名“蓝色大理石”地球影像的来源时,模型生成的答案带有阴谋论者的语调和视角。
团队承认提取某些概念存在风险,并对这些风险进行了说明(并提出警示)。总体而言,他们将这种新方法视为揭示 LLM 中隐藏概念和潜在漏洞的手段,随后可以通过调高或调低这些概念来提升模型的安全性或性能。
“这实际上说明了 LLM 的情况:它们内部拥有这些概念,但并非全部都被主动暴露。借助我们的方法,有办法提取这些不同的概念,并以提示无法实现的方式激活它们。”
— Adityanarayanan “Adit” Radhakrishnan,麻省理工学院数学助理教授
该研究结果已于今日发表在期刊 Science 上(doi:10.1126/science.aea6792)。合著者包括 Radhakrishnan、Daniel Beaglehole、加州大学圣迭戈分校的 Mikhail Belkin,以及宾夕法尼亚大学的 Enric Boix‑Adserà。
黑箱中的鱼
随着 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 以及其他 AI 助手的使用激增,科学家们正争相了解模型如何表示诸如 “幻觉” 和 “欺骗” 等抽象概念。在大型语言模型(LLM)的语境中,幻觉指的是一种错误或包含误导信息的回答——模型把它“幻觉”成了事实。
为了确定诸如“幻觉”之类的概念是否在 LLM 中被编码,研究人员常采用 无监督学习 方法——在未标记的表征中广泛搜寻,寻找可能与该概念相关的模式。Radhakrishnan 认为这种做法可能过于宽泛且计算成本高。
“这就像用大网捕鱼,想抓住一种特定的鱼。你会捕到很多鱼,需要逐一筛选才能找到目标,”他说。“相反,我们是用针对目标鱼种的诱饵去钓鱼。”
他和同事们此前开发了一种更具针对性的方法,使用 递归特征机器(RFM)——一种预测建模算法,旨在通过利用神经网络隐式使用的数学机制直接识别数据中的特征或模式。
由于该算法在捕获一般特征方面被证明既有效又高效,团队便好奇它是否也能用于在 LLM 中根除概念的表征——LLM 是迄今为止使用最广泛、但也可能是最不为人知的神经网络类型。
“我们想将我们的特征学习算法应用于 LLM,以有针对性的方式发现这些大型且复杂模型中概念的表征,”Radhakrishnan 说。
Source: …
收敛概念
新的方法在大型语言模型(LLM)中识别任何感兴趣的概念,并基于该概念 引导(或指导)模型的响应。研究人员在五类中考察了 512 个概念:
| Class | Example Concepts |
|---|---|
| Fears | fear of marriage, insects, buttons |
| Experts | social influencer, medievalist |
| Moods | boastful, detachedly amused |
| Location preferences | Boston, Kuala Lumpur |
| Personas | Ada Lovelace, Neil deGrasse Tyson |
他们通过训练 RFM 来识别可能代表特定概念的数值模式,从而在多个当代大型语言和视觉模型中搜索每个概念的表征。
标准的大型语言模型大体上是一个 神经网络,它接受自然语言提示(例如 “Why is the sky blue?”),并将提示拆分为单个词,每个词都被数学上编码为一个数值向量。模型将这些向量在一系列计算层中传播,生成包含大量数字的矩阵,这些矩阵在每一层都用于识别最有可能出现在响应中的其他词。最终,这些层会收敛到一组数字,这组数字再被解码回文本,形成 … (source 中的文本被截断).
概述
团队的方法是训练 RFMs 来识别大型语言模型(LLM)中可能与特定概念相关的数值模式。
示例:检测“阴谋论者”概念
-
训练阶段
- 该算法在 100 条明确与阴谋相关的提示 的表征上进行训练。
- 同时在 100 条与阴谋无关的提示 的表征上进行训练。
-
模式学习
- 该算法学习区分“阴谋论者”概念与无关内容的模式。
-
调制阶段
- 研究人员可以通过使用已识别的模式扰动 LLM 表征,数学上调制阴谋论者概念的活动。
General Applicability
该方法可用于在大型语言模型(LLM)中搜索和操作任何一般概念。
Notable Experiments
- 阴谋论者语气 – 研究人员识别出相应的表征,并操控 LLM 以阴谋论者的语气和视角作答。
- 反拒绝 – 他们强化了“anti‑refusal”概念,使模型遵从平时会拒绝的提示(例如,提供如何抢劫银行的指示)。
潜在用途
- 漏洞检测 – 快速搜索并最小化大型语言模型中的风险行为。
- 特性增强 – 在生成的回复中强调简洁、推理、特定人格、情绪或偏好等特性。
“LLMs 显然在内部以某种表征存储了大量这些抽象概念,”Radhakrishnan 说。
“如果我们足够了解这些表征,就可以构建仍然安全但在特定任务上极其高效的高度专业化 LLM。”
团队已将该方法的底层代码 公开可用。
资助
本工作部分得到以下机构的支持:
- National Science Foundation
- Simons Foundation
- TILOS Institute
- U.S. Office of Naval Research