[Paper] 이산 잠재 공간에서의 Next Concept Prediction이 더 강력한 Language Models를 이끈다
Source: arXiv - 2602.08984v1
개요
이 논문은 **Next Concept Prediction (NCP)**을 소개한다. 이는 대부분의 대형 언어 모델이 사용하는 고전적인 다음‑토큰 예측(NTP) 위에 놓이는 새로운 사전‑학습 목표이다. 다음 단어만 추측하는 대신, 모델은 여러 토큰에 걸칠 수 있는 이산 “개념” (예: 구, 엔터티, 혹은 반복 패턴)도 예측한다. 모델이 이러한 고수준 단위를 학습하도록 강제함으로써, 저자들은 언어 모델이 더 표현력이 풍부해지고 다양한 다운스트림 작업에서 일관된 성능 향상을 달성한다는 것을 보여준다.
주요 기여
- Next Concept Prediction (NCP): 일반적인 다음 토큰 목표에 추가로 다중 토큰 개념을 예측하는 새로운 사전 학습 과제.
- ConceptLM architecture: 벡터 양자화된 잠재 표현을 통합해 압축된 “개념 어휘”를 구축하고, 예측된 개념을 사용해 토큰 생성을 유도.
- Scalable training: 70 M부터 1.5 B 파라미터까지 실험을 수행했으며, 최대 300 B 토큰(파이티아 및 GPT‑2 데이터 파이프라인 포함)으로 학습.
- Empirical gains: 13개의 벤치마크 데이터셋(예: 언어 이해, 추론, 생성 작업)에서 일관된 성능 향상.
- Continual pre‑training proof‑point: 이미 학습된 8 B 파라미터 LLaMA 모델 위에 NCP를 적용해 추가 성능 향상을 달성, 기존 모델과의 호환성을 입증.
방법론
- 숨겨진 상태 양자화 – 모델의 연속적인 숨겨진 벡터를 벡터‑양자화(VQ) 레이어에 통과시켜, 각 벡터를 학습된 코드북의 가장 가까운 항목에 매핑합니다. 각 코드북 항목은 개념 토큰이 됩니다.
- 개념 어휘 구축 – 학습 코퍼스 전반에 걸쳐 유사한 숨겨진 상태를 클러스터링함으로써, VQ 코드북은 반복되는 다중 토큰 패턴(예: “New York City”, “machine learning”, 흔한 관용구)을 포착합니다.
- 이중 목표 학습 – 사전 학습 중 모델은 동시에:
- 다음 단어를 예측합니다(표준 NTP).
- 코드북에서 다음 개념 토큰을 예측합니다(NCP).
두 헤드의 손실을 합산하여, 네트워크가 미세한 어휘 지식과 거친 의미 청크를 모두 학습하도록 장려합니다.
- 유도 토큰 생성 – 추론 시, 예측된 개념 토큰을 디코더에 다시 입력하여, 이후 토큰 예측을 조건화하는 고수준 “힌트”를 제공합니다.
전체 파이프라인은 기존 트랜스포머 코드베이스에 쉽게 적용할 수 있을 정도로 간단합니다: 언어 모델링 헤드를 VQ 레이어와 개념을 위한 추가 분류 헤드로 교체하거나 보강하면 됩니다.
결과 및 발견
- Benchmark performance – 13개의 다양한 작업(예: GLUE, SuperGLUE, 제로샷 생성 벤치마크)을 포괄적으로 평가했을 때, ConceptLM은 토큰‑전용 베이스라인보다 평균 1–4 % 절대 향상된 성능을 보였으며, 구문‑수준 이해가 중요한 작업(예: 엔터티 인식, 상식 추론)에서는 더 큰 이득을 나타냈습니다.
- Scaling behavior – 상대적인 개선 폭은 모델 크기와 데이터 양이 증가함에 따라 커졌으며, 1.5 B 파라미터 ConceptLM이 토큰‑전용 모델 대비 가장 큰 점프를 보였습니다.
- Continual pre‑training – 이미 학습된 8 B LLaMA 모델에 NCP 단계를 추가하면 동일한 벤치마크 스위트에서 평균 +0.8 % 향상이 나타나, NCP가 사후 “부스트”로 활용될 수 있음을 확인했습니다.
- Analysis of learned concepts – 시각화 결과, 많은 코드북 엔트리가 의미적으로 일관된 단위(명명된 엔터티, 기술 용어, 관용구)와 대응함을 보여주며, 모델이 실제로 고수준 구조를 포착하고 있음을 시사합니다.
실용적 함의
- 더 나은 few‑shot 및 zero‑shot 성능 – 다중 토큰 개념을 내재화함으로써 모델은 더 적은 예시로 일반화할 수 있어, 라벨이 제한된 데이터로 애플리케이션을 구축하는 개발자에게 가치가 있습니다.
- 보다 효율적인 프롬프트 – 개념 토큰은 하위 생성 작업을 위한 간결한 “가이드” 역할을 할 수 있어, 프롬프트 길이를 줄이고 제어성을 향상시킬 수 있습니다.
- 기존 파이프라인과의 호환성 – NCP가 추가 손실 항목이므로, 팀은 전체 아키텍처를 재구성하지 않고 현재 모델을 파인튜닝하거나 계속 사전 학습할 수 있습니다.
- 압축 가능성 – 이산 개념 어휘는 모델 지식을 압축하는 자연스러운 방법을 제공하며(예: 코드북과 개념 예측만을 저장하여 하위 작업에 활용).
- 향상된 해석 가능성 – 개념 토큰은 인간이 읽을 수 있는 클러스터로, 엔지니어가 모델이 학습한 내용을 검사할 새로운 시각을 제공하며(디버깅이나 편향 분석에 유용).
Source: …
제한 사항 및 향후 작업
- Concept granularity trade‑off – 너무 작은 코드북은 관련 없는 토큰들을 동일한 개념에 강제할 수 있고, 너무 큰 코드북은 이점을 희석하고 메모리 오버헤드를 증가시킬 수 있습니다. 최적점을 찾기 위해서는 경험적 튜닝이 필요합니다.
- Training overhead – VQ 레이어는 추가적인 연산과 메모리를 요구하여 순수 토큰 수준 모델에 비해 사전 훈련 속도를 약간 늦춥니다.
- Domain transfer – 학습된 개념은 사전 훈련 코퍼스에 종속되어 있으므로, NCP를 법률이나 생의학과 같이 고도로 전문화된 도메인에 적용하려면 도메인별 코드북이 필요할 수 있습니다.
- Future directions – 저자들이 제시한 향후 연구 방향으로는 계층적 개념 어휘 탐색, NCP를 검색 기반 생성과 통합, 그리고 이 패러다임을 멀티모달 모델(예: 비전‑언어)에 적용하는 것이 포함됩니다.
Next Concept Prediction은 기존 투자를 포기하지 않으면서도 언어 모델의 의미 인식을 향상시킬 수 있는 실용적인 길을 개발자에게 제공합니다. 사전 훈련 시 다중 토큰 패턴을 일급 객체로 취급함으로써 ConceptLM은 목표를 약간만 변경해도 측정 가능한 실세계 이득으로 이어질 수 있음을 보여줍니다.
저자
- Yuliang Liu
- Yunchong Song
- Yixuan Wang
- Kewen Ge
- Alex Lamb
- Qipeng Guo
- Kai Chen
- Bowen Zhou
- Zhouhan Lin
논문 정보
- arXiv ID: 2602.08984v1
- 분류: cs.CL, cs.AI
- 발행일: 2026년 2월 9일
- PDF: Download PDF