[Paper] 이산 잠재 공간에서의 Next Concept Prediction이 더 강력한 Language Models를 이끈다

발행: (2026년 2월 10일 오전 03:33 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.08984v1

개요

이 논문은 **Next Concept Prediction (NCP)**을 소개한다. 이는 대부분의 대형 언어 모델이 사용하는 고전적인 다음‑토큰 예측(NTP) 위에 놓이는 새로운 사전‑학습 목표이다. 다음 단어만 추측하는 대신, 모델은 여러 토큰에 걸칠 수 있는 이산 “개념” (예: 구, 엔터티, 혹은 반복 패턴)도 예측한다. 모델이 이러한 고수준 단위를 학습하도록 강제함으로써, 저자들은 언어 모델이 더 표현력이 풍부해지고 다양한 다운스트림 작업에서 일관된 성능 향상을 달성한다는 것을 보여준다.

주요 기여

  • Next Concept Prediction (NCP): 일반적인 다음 토큰 목표에 추가로 다중 토큰 개념을 예측하는 새로운 사전 학습 과제.
  • ConceptLM architecture: 벡터 양자화된 잠재 표현을 통합해 압축된 “개념 어휘”를 구축하고, 예측된 개념을 사용해 토큰 생성을 유도.
  • Scalable training: 70 M부터 1.5 B 파라미터까지 실험을 수행했으며, 최대 300 B 토큰(파이티아 및 GPT‑2 데이터 파이프라인 포함)으로 학습.
  • Empirical gains: 13개의 벤치마크 데이터셋(예: 언어 이해, 추론, 생성 작업)에서 일관된 성능 향상.
  • Continual pre‑training proof‑point: 이미 학습된 8 B 파라미터 LLaMA 모델 위에 NCP를 적용해 추가 성능 향상을 달성, 기존 모델과의 호환성을 입증.

방법론

  1. 숨겨진 상태 양자화 – 모델의 연속적인 숨겨진 벡터를 벡터‑양자화(VQ) 레이어에 통과시켜, 각 벡터를 학습된 코드북의 가장 가까운 항목에 매핑합니다. 각 코드북 항목은 개념 토큰이 됩니다.
  2. 개념 어휘 구축 – 학습 코퍼스 전반에 걸쳐 유사한 숨겨진 상태를 클러스터링함으로써, VQ 코드북은 반복되는 다중 토큰 패턴(예: “New York City”, “machine learning”, 흔한 관용구)을 포착합니다.
  3. 이중 목표 학습 – 사전 학습 중 모델은 동시에:
    • 다음 단어를 예측합니다(표준 NTP).
    • 코드북에서 다음 개념 토큰을 예측합니다(NCP).
      두 헤드의 손실을 합산하여, 네트워크가 미세한 어휘 지식과 거친 의미 청크를 모두 학습하도록 장려합니다.
  4. 유도 토큰 생성 – 추론 시, 예측된 개념 토큰을 디코더에 다시 입력하여, 이후 토큰 예측을 조건화하는 고수준 “힌트”를 제공합니다.

전체 파이프라인은 기존 트랜스포머 코드베이스에 쉽게 적용할 수 있을 정도로 간단합니다: 언어 모델링 헤드를 VQ 레이어와 개념을 위한 추가 분류 헤드로 교체하거나 보강하면 됩니다.

결과 및 발견

  • Benchmark performance – 13개의 다양한 작업(예: GLUE, SuperGLUE, 제로샷 생성 벤치마크)을 포괄적으로 평가했을 때, ConceptLM은 토큰‑전용 베이스라인보다 평균 1–4 % 절대 향상된 성능을 보였으며, 구문‑수준 이해가 중요한 작업(예: 엔터티 인식, 상식 추론)에서는 더 큰 이득을 나타냈습니다.
  • Scaling behavior – 상대적인 개선 폭은 모델 크기와 데이터 양이 증가함에 따라 커졌으며, 1.5 B 파라미터 ConceptLM이 토큰‑전용 모델 대비 가장 큰 점프를 보였습니다.
  • Continual pre‑training – 이미 학습된 8 B LLaMA 모델에 NCP 단계를 추가하면 동일한 벤치마크 스위트에서 평균 +0.8 % 향상이 나타나, NCP가 사후 “부스트”로 활용될 수 있음을 확인했습니다.
  • Analysis of learned concepts – 시각화 결과, 많은 코드북 엔트리가 의미적으로 일관된 단위(명명된 엔터티, 기술 용어, 관용구)와 대응함을 보여주며, 모델이 실제로 고수준 구조를 포착하고 있음을 시사합니다.

실용적 함의

  • 더 나은 few‑shot 및 zero‑shot 성능 – 다중 토큰 개념을 내재화함으로써 모델은 더 적은 예시로 일반화할 수 있어, 라벨이 제한된 데이터로 애플리케이션을 구축하는 개발자에게 가치가 있습니다.
  • 보다 효율적인 프롬프트 – 개념 토큰은 하위 생성 작업을 위한 간결한 “가이드” 역할을 할 수 있어, 프롬프트 길이를 줄이고 제어성을 향상시킬 수 있습니다.
  • 기존 파이프라인과의 호환성 – NCP가 추가 손실 항목이므로, 팀은 전체 아키텍처를 재구성하지 않고 현재 모델을 파인튜닝하거나 계속 사전 학습할 수 있습니다.
  • 압축 가능성 – 이산 개념 어휘는 모델 지식을 압축하는 자연스러운 방법을 제공하며(예: 코드북과 개념 예측만을 저장하여 하위 작업에 활용).
  • 향상된 해석 가능성 – 개념 토큰은 인간이 읽을 수 있는 클러스터로, 엔지니어가 모델이 학습한 내용을 검사할 새로운 시각을 제공하며(디버깅이나 편향 분석에 유용).

Source:

제한 사항 및 향후 작업

  • Concept granularity trade‑off – 너무 작은 코드북은 관련 없는 토큰들을 동일한 개념에 강제할 수 있고, 너무 큰 코드북은 이점을 희석하고 메모리 오버헤드를 증가시킬 수 있습니다. 최적점을 찾기 위해서는 경험적 튜닝이 필요합니다.
  • Training overhead – VQ 레이어는 추가적인 연산과 메모리를 요구하여 순수 토큰 수준 모델에 비해 사전 훈련 속도를 약간 늦춥니다.
  • Domain transfer – 학습된 개념은 사전 훈련 코퍼스에 종속되어 있으므로, NCP를 법률이나 생의학과 같이 고도로 전문화된 도메인에 적용하려면 도메인별 코드북이 필요할 수 있습니다.
  • Future directions – 저자들이 제시한 향후 연구 방향으로는 계층적 개념 어휘 탐색, NCP를 검색 기반 생성과 통합, 그리고 이 패러다임을 멀티모달 모델(예: 비전‑언어)에 적용하는 것이 포함됩니다.

Next Concept Prediction은 기존 투자를 포기하지 않으면서도 언어 모델의 의미 인식을 향상시킬 수 있는 실용적인 길을 개발자에게 제공합니다. 사전 훈련 시 다중 토큰 패턴을 일급 객체로 취급함으로써 ConceptLM은 목표를 약간만 변경해도 측정 가능한 실세계 이득으로 이어질 수 있음을 보여줍니다.

저자

  • Yuliang Liu
  • Yunchong Song
  • Yixuan Wang
  • Kewen Ge
  • Alex Lamb
  • Qipeng Guo
  • Kai Chen
  • Bowen Zhou
  • Zhouhan Lin

논문 정보

  • arXiv ID: 2602.08984v1
  • 분류: cs.CL, cs.AI
  • 발행일: 2026년 2월 9일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] Just on Time: 토큰 수준 조기 중단 for Diffusion Language Models

Diffusion 언어 모델은 텍스트를 반복적인 정제 과정을 통해 생성합니다. 이 과정은 많은 토큰이 안정 상태에 도달하기 전까지 여러 번 업데이트가 필요하기 때문에 계산 효율성이 낮은 경우가 많습니다. 기존 방법에서는 각 토큰이 완전히 수렴할 때까지 여러 단계의 디퓨전 과정을 거치며, 이는 전체 생성 시간과 비용을 크게 증가시킵니다. 최근 연구들은 이러한 비효율성을 완화하기 위해 토큰 수준에서의 동적 스케줄링, 조기 종료 전략, 그리고 부분적인 샘플링 기법을 도입하고 있습니다. 예를 들어, 토큰이 일정 기준 이상의 확신도를 보이면 해당 토큰에 대한 추가 디퓨전 단계를 건너뛰고, 남은 불확실한 토큰에만 집중하는 방식이 제안되었습니다. 또한, 모델이 학습 단계에서 다양한 노이즈 레벨에 대한 복원 능력을 동시에 습득하도록 설계함으로써, 추론 시에 한 번의 전방 패스로 여러 디퓨전 단계의 효과를 모방할 수 있는 방법도 연구되고 있습니다. 이러한 접근법들은 전통적인 디퓨전 기반 텍스트 생성의 계산 복잡성을 크게 낮추면서도, 품질 면에서는 기존 방법과 비슷하거나 더 나은 성능을 보이는 결과를 보여주고 있습니다.