线性表示与叠加

发布: 3天前 (2026年2月15日 GMT+8 12:29)

9 分钟阅读

原文: Hacker News

Source: Hacker News

随着大语言模型（LLM）变得更大、更强大且更无处不在，机械可解释性（mechanistic interpretability）——即理解这些模型内部工作原理——变得日益有趣且重要。

类似于软件工程师通过对文件系统和网络拥有良好的心智模型而受益，AI 研究者和工程师也应努力建立理论基础，以理解从 LLM 中涌现的“智能”。强大的心智模型将提升我们利用该技术的能力。

在本文中，我想介绍两个基本且相关的概念（各自有对应的论文），它们在数学视角下令我着迷：

线性表示假设（LRH）– Park et al., 2023
叠加（superposition）– Anthropic, 2022

Source: …

线性表示假设（LRH）

LRH 已经存在相当长的时间了，自从人们注意到 Word2Vec 生成的词嵌入满足一些有趣的性质。
如果我们记 (E(x)) 为某个词的嵌入向量，那么我们观察到近似等式

[ E(\text{king''}) - E(\text{man”}) + E(\text{woman''}) \;\approx\; E(\text{queen”}). ]

这种形式的观察表明概念（例如示例中的性别）在嵌入空间的几何结构中是线性表示的——这是一个简单却并非显而易见的主张。

Simplified model of an LLM in terms of embeddings and unembeddings.

快进到现代大语言模型（LLM），LRH 仍然是解释这些模型内部运行机制的流行方式。Park 等人的论文给出了该假设的数学框架，将大部分内部工作（MLP、注意力等）视为黑箱，并聚焦于 两个维度相同的表示空间：

嵌入空间 —— 网络的最终隐藏状态位于此处（输入上下文 (x) 的 (E(x))）。这类似于词嵌入的表述，也是你进行 影响模型行为的干预 的地方（参见 “单义性” 缩放论文）。
反嵌入空间 —— 反嵌入矩阵的行位于此处（每个输出标记 (y) 的 (U(y))）。对隐藏状态进行 线性探针（评估概念是否存在）对应于该空间中的一个向量。

在这两个空间中都有类似的 LRH 表述。设 (C) 表示性别的方向概念（男性 → 女性）。那么任意一对仅在该概念上不同的输入上下文应满足，例如

[ E(\text{Long live the queen''}) - E(\text{Long live the king”}) ;=; \alpha , E_C, \qquad \alpha \ge 0, ]

其中 (E_C) 是嵌入空间中的常量向量（嵌入表示）。同理，任意一对仅在该概念上不同的输出标记应满足

[ U(\text{queen''}) - U(\text{king”}) ;=; \beta , U_C, \qquad \beta \ge 0, ]

其中 (U_C) 是 反嵌入表示。换句话说，施加该概念在两个空间中都会产生线性效应。

论文表明这两种表示是同构的，从而统一了干预和线性探针的思想。实证上，他们在 Llama 2 上验证了可以为各种概念（例如现在时 → 过去时、名词 → 复数、英语 → 法语）找到符合其理论框架的嵌入和反嵌入表示。

Approximate orthogonality of concept representations in Llama 2. Source: Park et al.

超位置（Superposition）

假设概念确实具有线性表示，那么自然会期待不相关的概念是正交的。否则，将“男性 → 女性”方向应用时，可能会意外影响“英语 → 法语”方向，这显然没有意义。

Park 等人的一个关键结果是，这种正交性在标准欧几里得内积下并不成立。相反，它在由去嵌入矩阵导出的**“因果内积”（causal inner product）**下出现。只有当我们通过这种视角审视概念表示时，才能得到我们期望的正交性。

然而，现代大语言模型的表示空间相对较小（通常为 2 K–16 K 维）。如此低维的空间如何容纳远远超过其维度的海量语言特征？不可能让所有特征彼此正交，无论采用何种几何结构。

非正交特征的干扰效应。来源：Anthropic。

这正是超位置发挥作用的地方。在低维空间中，当你拥有 (N) 个向量放在 (d) 维空间且 (N > d) 时，这些向量不可避免地相互干扰：它们的内积会产生非平凡的幅度。超位置提供了一种框架，帮助我们理解模型如何通过让更多概念共享（即叠加到）同一子空间，并在适当的因果内积下保持近似解耦，从而在维度远小于概念数量的情况下仍能容纳大量概念。

低维直觉 vs. 高维

Those examples where low‑dimensional intuition does not extend to higher dimensions are evidenced by the Johnson–Lindenstrauss lemma. An implication of the lemma is that you can choose exponentially many vectors (in the number of dimensions) that are almost orthogonal—i.e., the inner products between any pair are bounded by a small constant. This can be viewed as the flip side of the curse of dimensionality.

玩具模型中的叠加

Anthropic 论文展示了在小型合成数据集上的叠加现象。一个特别有趣的观察是，叠加 在没有激活函数的情况下（纯线性计算）不会出现，但它 在使用非线性激活函数时会出现（他们使用的是 ReLU）。非线性使模型能够以一种建设性的方式管理干扰。这仍然仅因为这些特征在数据中天然稀疏——模型学习叠加那些不太可能同时出现的特征。

可视化

Visualization of a square antiprism, the energy‑minimizing arrangement of 8 points on a 3‑D unit sphere.

图：方形反棱锥——在三维单位球面上八点的能量最小化排列。

嵌入空间中的规则结构

在合成特征具有相同重要性和稀疏性的实验设置中，作者观察到模型学习到的嵌入向量在嵌入空间中形成规则结构，例如：

四面体
五边形
方形反棱锥

巧合的是，这些结构与早期关于spherical codes的研究中遇到的结构类型相同。这些结构来源于类似梯度下降的算法，该算法最小化单位超球面上点排列的能量（类似于Thomson problem）。看到多个领域的交叉非常有趣！

要点

将特征视为线性表示——即使并非完整的故事（see this paper）——也为解释和干预 LLM 提供了有价值的框架。该框架拥有坚实的理论基础，并得到实证支持。稀疏性、叠加以及高维空间的非直观特性为我们提供了一个窗口，帮助理解语言的复杂性（以及或许是智能？）是如何被这些模型捕获的。

线性表示与叠加

线性表示假设（LRH）

超位置（Superposition）

低维直觉 vs. 高维

玩具模型中的叠加

可视化

嵌入空间中的规则结构

要点

相关文章

你的 prompts 存在 vendor lock-in 问题，而且它隐藏在 plain text 中

技能不是魔法。它们是有范围的上下文。 🧭🗂️

为什么 Prompt 不仅仅是消息

为什么你的 AI 代理需要黑盒