[Paper] 차원 축소를 통한 LLM 잠재 공간 기하학 시각화

발행: (2025년 11월 27일 오전 02:11 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2511.21594v1

Overview

논문 Visualizing LLM Latent Space Geometry Through Dimensionality Reduction는 GPT‑2와 LLaMa와 같은 트랜스포머 기반 언어 모델의 숨겨진 “사고 과정”을 탐구합니다. 레이어별 활성화를 추출하고 이를 2‑D/3‑D 시각화로 투영함으로써, 저자들은 이전에 보이지 않았던 기하학적 패턴을 밝혀내어 개발자들이 모델 동작을 이해할 수 있는 새로운 시각을 제공합니다.

Key Contributions

  • 레이어별 활성화 체계적인 추출 파이프라인 – 대형 언어 모델의 어텐션 헤드와 MLP 블록에서 활성화를 수집합니다.
  • 주성분 분석(PCA)과 UMAP을 활용한 이중 차원 축소 분석으로 잠재 공간 기하학을 드러냅니다.
  • 중간 레이어에서 어텐션 출력과 MLP 출력이 명확히 구분된다는 발견 – 이전에 보고된 바 없는 관찰입니다.
  • 위치 임베딩 기하학 시각화 – GPT‑2의 위치 벡터가 고차원 나선 구조를 형성함을 보여줍니다.
  • 레이어별 진화 지도 – 토큰 표현이 네트워크를 통과하면서 어떻게 변형되는지 추적하며, 특히 첫 번째 토큰의 잠재 상태가 비정상적으로 높은 노름을 갖는 현상을 포착합니다.
  • 오픈소스 툴링(Python 라이브러리) – GitHub에 공개되어 커뮤니티가 재현 가능한 분석을 수행할 수 있도록 합니다.

Methodology

  1. Activation Capture – 저자들은 GPT‑2와 LLaMa 모델에 계측을 삽입해 입력 시퀀스에 대해 각 서브모듈(셀프‑어텐션, 피드‑포워드 MLP, 임베딩)의 출력 텐서를 기록했습니다.
  2. Pre‑processing – 원시 텐서를 토큰별로 평탄화하고, 레이어 간 스케일 차이를 완화하기 위해 정규화했습니다.
  3. Dimensionality Reduction
    • PCA는 선형이며 전역적으로 최적의 투영을 제공해 주요 분산 방향을 강조합니다.
    • UMAP은 비선형 임베딩을 제공해 지역 이웃 구조를 보존함으로써 클러스터와 구분을 시각적으로 더 명확히 합니다.
  4. Visualization – 차원 축소된 벡터를 레이어, 구성 요소 유형(어텐션 vs. MLP), 토큰 위치별 색상으로 플롯하여 개발자들이 구분, 나선, 고노름 이상치와 같은 패턴을 쉽게 식별할 수 있게 합니다.
  5. Qualitative Experiments – 파이프라인을 (a) 표준 프롬프트, (b) 반복 토큰 시퀀스, (c) 위치 임베딩만을 입력으로 한 경우에 적용해 특정 기하학 현상을 분리했습니다.

Results & Findings

  • Attention vs. MLP Split: 중간 레이어부터 UMAP 플롯에 두 개의 뚜렷한 구름이 나타나는데, 하나는 어텐션 출력, 다른 하나는 MLP 출력으로, 모델이 컨텍스트 정보와 피드‑포워드 변환을 거의 직교하는 서브스페이스에서 처리한다는 것을 시사합니다.
  • Helical Positional Embeddings: GPT‑2의 위치 벡터만 시각화했을 때, 차원 축소된 공간이 부드러운 나선을 형성하여 학습된 임베딩이 연속적이고 회전적인 방식으로 위치를 인코딩함을 확인했습니다.
  • First‑Token Norm Spike: 첫 번째 토큰(대개 시작‑시퀀스 토큰)의 잠재 표현이 이후 토큰에 비해 훨씬 큰 유클리드 노름을 지속적으로 보이며, 이는 순전파 초기에 “신호 증폭” 역할을 할 가능성을 암시합니다.
  • Layerwise Trajectories: 토큰들은 레이어가 올라갈수록 축소된 공간에서 일관된 경로를 그리며, 초기 레이어에서는 빠른 분산이, 후기 레이어에서는 더 조밀한 클러스터로 수렴하는 모습을 보여줍니다—이는 모델이 의미를 점진적으로 추상화한다는 점과 일치합니다.
  • Sequence‑wise Patterns in LLaMa: GPT‑2와 달리 LLaMa의 토큰 임베딩은 보다 격자형 배열을 보이며, 이는 학습 데이터나 아키텍처 차이가 다운스트림 작업에 영향을 미칠 수 있음을 시사합니다.

Practical Implications

  • 디버깅 및 감사: 개발자는 이제 비정상적인 클러스터링이나 이상치 노름과 같은 활성화 패턴을 시각적으로 식별해 버그, 데이터 누출, 혹은 적대적 조작을 감지할 수 있습니다.
  • 모델 압축 및 프루닝: 어텐션과 MLP 서브스페이스가 명확히 구분된다는 점은 이들 컴포넌트를 서로 독립적으로 양자화하거나 프루닝해도 표현 능력에 큰 영향을 주지 않을 가능성을 제시합니다.
  • 프롬프트 엔지니어링: 시작‑시퀀스 토큰이 초기 레이어에서 지배적인 역할을 한다는 이해는 few‑shot 학습을 위한 보다 효과적인 프롬프트나 프리픽스 토큰 설계에 도움을 줍니다.
  • 맞춤형 위치 임베딩 설계: 나선형 위치 임베딩 특성은 해석 가능하거나 하드웨어 친화적인 대체 위치 인코딩을 설계하는 새로운 길을 열어줍니다.
  • 전이 학습 진단: 파인튜닝된 모델의 잠재 기하학이 베이스 모델과 어떻게 이동했는지 시각화함으로써, 엔지니어는 파인튜닝이 실제로 표현을 적응시키는지, 아니면 과적합에 그치는지를 평가할 수 있습니다.
  • 교육용 툴링: 오픈소스 시각화 도구는 워크숍이나 내부 ML 교육 과정에 통합되어 비연구 엔지니어에게 트랜스포머 내부를 쉽게 설명할 수 있습니다.

Limitations & Future Work

  • Scalability: 현재 파이프라인은 약 7 B 파라미터까지의 모델에 잘 동작합니다. 70 B와 같은 대형 LLM에 적용하려면 메모리 효율적인 샘플링이나 분산 활성화 로깅이 필요합니다.
  • Quantitative Metrics: 본 연구는 주로 정성적이며, 향후 클러스터 분리 점수와 같은 정량적 지표를 정의해 자동으로 구조적 이상을 감지하는 방안을 모색할 수 있습니다.
  • Causal Interpretation: 기하학적 패턴을 관찰했지만, 이를 특정 언어 현상이나 다운스트림 성능과 연결하는 일은 아직 남은 과제입니다.
  • Broader Architectures: 저자들은 기본 트랜스포머에 초점을 맞췄으며, 인코더‑디코더 모델, 검색‑증강 LLM, 혹은 희소 게이트 혼합 모델 등에 적용하면 새로운 통찰을 얻을 수 있을 것입니다.

저자들의 코드베이스는 공개되어 있어 개발자들이 자신의 파이프라인에 시각화 도구를 손쉽게 연결하고, 자신이 의존하는 모델의 숨겨진 기하학을 탐색할 수 있습니다.

Authors

  • Alex Ning
  • Vainateya Rangaraju

Paper Information

  • arXiv ID: 2511.21594v1
  • Categories: cs.LG
  • Published: November 26, 2025
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »