선형 표현과 중첩
Source: Hacker News
LLM이 점점 더 커지고, 더 강력해지며, 더 널리 사용됨에 따라, 이러한 모델들의 내부 작동 방식을 이해하는 기계론적 해석 가능성 분야는 점점 더 흥미롭고 중요해집니다.
소프트웨어 엔지니어가 파일 시스템과 네트워킹에 대한 좋은 정신 모델을 갖는 것이 도움이 되듯이, AI 연구자와 엔지니어도 LLM에서 나타나는 “지능”을 이해하기 위한 이론적 기반을 갖추려고 노력해야 합니다. 강력한 정신 모델은 기술을 활용하는 능력을 향상시킬 것입니다.
이 글에서는 제가 수학적 관점에서 매력적이라고 생각하는 두 가지 기본적이며 연관된 개념(각각 별도의 논문이 있음)을 다루고자 합니다:
- 선형 표현 가설(LRH) – Park et al., 2023
- 중첩 – Anthropic, 2022
Linear representation hypothesis (LRH)
LRH는 사람들이 Word2Vec이 만든 단어 임베딩이 흥미로운 특성을 만족한다는 것을 알아차린 이후 꽤 오랫동안 존재해 왔습니다.
단어의 임베딩 벡터를 (E(x))라 하면, 우리는 다음과 같은 근사 등식이 성립함을 관찰합니다.
[
E(\text{king''}) - E(\text{man”}) + E(\text{woman''}) \;\approx\; E(\text{queen”}).
]
이와 같은 관찰은 개념(예: 예시의 성별)이 임베딩 공간의 기하학에서 선형적으로 표현된다는, 단순하지만 명백하지 않은 주장을 시사합니다.
현대 LLM으로 시점을 옮겨보면, LRH는 여전히 이러한 모델 내부에서 일어나는 일을 해석하는 인기 있는 방법입니다. Park et al. 논문은 대부분의 내부 작동(MLP, attention 등)을 블랙 박스로 취급하고, 모델과 동일한 차원을 갖는 두 개의 별도 표현 공간에 초점을 맞춘 수학적 프레이밍을 제시합니다:
- Embedding space – 네트워크의 최종 은닉 상태가 존재하는 공간 ((E(x))는 입력 컨텍스트 (x)에 대한 임베딩). 이는 단어 임베딩 공식과 유사하며, 여기서 모델의 행동에 영향을 주는 개입을 수행합니다(“monosemanticity” 스케일링 논문 참고).
- Unembedding space – 언임베딩 행렬의 행이 존재하는 공간 ((U(y))는 각 출력 토큰 (y)에 대한 벡터). 은닉 상태에 대한 선형 프로브(개념 존재 여부 평가)는 이 공간의 벡터에 해당합니다.
두 공간 모두에 대해 유사한 LRH 공식이 존재합니다. (C)를 성별(남성 → 여성)이라는 방향성 개념이라고 하면, 해당 개념만 다른 두 입력 컨텍스트는 다음을 만족해야 합니다.
[
E(\text{Long live the queen''}) - E(\text{Long live the king”}) ;=; \alpha , E_C,
\qquad \alpha \ge 0,
]
여기서 (E_C)는 임베딩 공간의 고정 벡터(임베딩 표현)입니다. 마찬가지로, 해당 개념만 다른 두 출력 토큰은 다음을 만족해야 합니다.
[
U(\text{queen''}) - U(\text{king”}) ;=; \beta , U_C,
\qquad \beta \ge 0,
]
여기서 (U_C)는 언임베딩 표현입니다. 즉, 개념을 적용하는 것이 두 공간 모두에서 선형적인 효과를 가진다는 의미입니다.
논문은 이 두 표현이 **동형(isomorphic)**임을 보여주며, 이는 개입과 선형 프로브 아이디어를 통합합니다. 실험적으로는 Llama 2에서 다양한 개념(예: 현재 → 과거 시제, 명사 → 복수형, 영어 → 프랑스어)에 대한 임베딩 및 언임베딩 표현을 찾아 이론적 프레임워크에 근사하게 맞출 수 있음을 검증했습니다.
Superposition
개념이 실제로 선형 표현을 가진다고 가정한다면, 관련 없는 개념들은 직교해야 한다는 것이 자연스러운 기대입니다. 그렇지 않으면, 남성 → 여성 방향을 적용했을 때 영어 → 프랑스어 방향에도 의도치 않게 영향을 미칠 수 있는데, 이는 말이 되지 않습니다.
Park et al.의 주요 결과 중 하나는 이러한 직교성이 표준 유클리드 내적 하에서는 성립하지 않는다는 점입니다. 대신, “인과 내적”(causal inner product)이라는, 임베딩을 역변환하는 행렬에서 유도된 내적 하에서 직교성이 나타납니다. 개념 표현을 그 관점으로 바라볼 때에만 우리가 기대하는 직교성을 얻을 수 있습니다.
하지만 현대 LLM의 표현 공간은 비교적 작습니다(보통 2 K–16 K 차원). 이렇게 낮은 차원 공간이 차원을 훨씬 초과하는 방대한 언어 특징들을 어떻게 수용할 수 있을까요? 모든 특징이 서로 직교하도록 만드는 것은 기하학에 관계없이 불가능합니다.
이때 **중첩(superposition)**이 중요한 역할을 합니다. 차원이 (d)인 공간에 (N)개의 벡터가 존재하고 (N > d)일 경우, 벡터들은 필연적으로 간섭하게 됩니다: 내적값이 비자명한 크기를 갖게 되는 것이죠. 중첩은 모델이 차원보다 훨씬 많은 개념을 어떻게 포장할 수 있는지를 설명하는 프레임워크를 제공합니다. 이는 동일한 부분공간을 공유(즉, 중첩)하면서도 적절한 인과 내적 하에서는 대략적으로 분리된 상태를 유지하게 합니다.
저차원 직관 vs. 고차원
저차원 직관이 고차원으로 확장되지 않는 사례는 Johnson–Lindenstrauss lemma에서 확인할 수 있습니다. 이 보조정리의 한 함의는 지수적으로 많은 벡터(차원의 수에 따라) 를 선택할 수 있다는 것으로, 이들 벡터는 거의 직교합니다—즉, 어떤 두 벡터 사이의 내적이 작은 상수 이하로 제한됩니다. 이는 차원의 저주의 반대면으로 볼 수 있습니다.
Source:
장난감 모델에서의 중첩
Anthropic 논문은 작은 합성 데이터셋에서 중첩 현상을 보여줍니다. 특히 흥미로운 관찰은 중첩이 활성화 함수가 없을 때는 발생하지 않으며 (순수 선형 연산), 비선형 함수가 있을 때는 발생한다는 점입니다 (그들의 경우 ReLU). 비선형성은 모델이 간섭을 생산적인 방식으로 관리하도록 해줍니다. 이는 여전히 데이터 내 특징들의 자연스러운 희소성 때문에 잘 작동합니다—모델은 동시에 존재할 가능성이 낮은 특징들을 중첩하도록 학습합니다.
시각화
그림: 정사각형 안티프리즘 – 3‑D 단위 구 위에 8개의 점이 에너지 최소화 배열을 이루는 모습.
임베딩 공간의 규칙적인 구조
합성 피처가 동일한 중요도와 희소성을 가질 때, 저자들은 모델이 학습한 임베딩 벡터가 임베딩 공간에서 규칙적인 구조를 형성한다는 것을 관찰했습니다. 예를 들면:
- 정사면체
- 오각형
- Square antiprism
우연히도, 이러한 구조들은 이전에 구면 코드에 관한 연구에서 발견된 것과 동일합니다. 그 구조들은 단위 초구 위의 점 배열의 에너지( 톰슨 문제와 유사)를 최소화하는 경사 하강법과 유사한 알고리즘에서 나타났습니다. 여러 분야가 겹치는 모습을 보는 것은 흥미롭습니다!
요약
특징을 선형 표현으로 보는 것—비록 전체 이야기를 담고 있지는 않지만(이 논문 참고)—은 LLM을 해석하고 개입하는 데 유용한 프레임워크를 제공합니다. 이 프레임워크는 실증적으로 뒷받침되는 탄탄한 이론적 기반을 가지고 있습니다. 희소성, 중첩, 그리고 고차원 공간의 직관에 반하는 특성은 언어(그리고 어쩌면 지능?)의 복잡성이 이러한 모델에 어떻게 포착되는지를 이해할 수 있는 창을 열어줍니다.