[Paper] 언어 모델은 무엇을 언제 학습하는가? 암묵적 커리큘럼 가설
Source: arXiv - 2604.08510v1
번역을 원하는 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록이나 URL은 그대로 유지됩니다.)
Overview
대형 언어 모델(LLM)은 갑자기 놀라울 정도로 정교한 능력을 습득할 수 있습니다—예를 들어 수학 퍼즐을 풀거나 핵심 지시어에 대한 추론을 하는 것처럼—하지만 이러한 기술이 언제 그리고 어떻게 사전 학습 과정에서 나타나는지는 거의 알지 못합니다. 논문 What do Language Models Learn and When? The Implicit Curriculum Hypothesis는 LLM이 숨겨진, 예측 가능한 “커리큘럼”을 따른다고 제안합니다: 더 단순한 능력이 먼저 등장하고, 그 기반이 마련된 뒤에야 더 복잡하고 구성적인 과제가 나타납니다. 410 M에서 13 B 파라미터에 이르는 다양한 모델을 조사한 결과, 이 커리큘럼이 모델 패밀리 전반에 걸쳐 놀라울 정도로 일관되며 심지어 모델의 내부 표현에서도 읽어낼 수 있음을 보여줍니다.
주요 기여
- 암시적 커리큘럼 가설 – 사전 학습이 모델에 크게 의존하지 않는 구조화된 구성 학습 순서를 따른다는 아이디어를 제시합니다.
- 탐색을 위한 작업 모음 – 검색, 형태소, 상호참조, 논리 추론, 산술을 포괄하는 12개의 가벼운, 조합 가능한 작업 세트를 설계합니다.
- 일관성에 대한 실증적 증거 – 45개의 모델 쌍에서 등장 순서가 높은 상관관계(ρ ≈ 0.81)를 발견하여 공유 커리큘럼을 확인합니다.
- 표현 기반 예측 – 모델 내부에서 추출한 작업 “함수 벡터”가 보지 못한 구성 작업이 목표 정확도에 도달할 시점을 예측할 수 있음을 보여줍니다(R² = 0.68–0.84).
- 복합‑우선 규칙 – 복합 작업이 일반적으로 그 구성 하위 작업 이후에 등장함을 입증하여 커리큘럼의 구성적 특성을 뒷받침합니다.
Methodology
- Model families – 네 개의 디코더‑전용 LLM 패밀리(≈410 M, 1 B, 2.7 B, 13 B 파라미터)로, 동일한 데이터 혼합을 사용하지만 서로 다른 랜덤 시드와 스케일링 체계를 적용해 학습함.
- Probing tasks – 각 작업은 간단한 원시 작업들의 조합으로 표현될 수 있는 짧은 프롬프트‑완성 쌍이다(예: “두 숫자를 더하기” = “첫 번째 숫자 가져오기” + “두 번째 숫자 가져오기” + “덧셈 수행”).
- Emergence measurement – 모든 체크포인트(수백 k 단계마다)마다 저자들은 각 작업에 대한 정확도를 평가하고, 고정된 임계값(예: 80 % 정답) 이상이 되는 시점을 기록한다.
- Ordering analysis – 모델 간 등장 순서를 비교하기 위해 쌍별 스피어만 상관관계를 계산한다; 높은 상관관계는 공유된 커리큘럼을 의미한다.
- Representation extraction – 고정된 인코더를 사용해 다수의 예시에서 은닉 상태를 평균하여 각 작업에 대한 “함수 벡터”를 만든다. 유사한 벡터는 유사한 기능적 역할을 나타낸다.
- Trajectory prediction – 간단한 선형 회귀를 이용해 이러한 벡터를 보유‑외부 작업의 관측된 등장 단계에 매핑함으로써, 향후 스킬 습득을 예측하는 모델을 만든다.
결과 및 발견
- 일관된 순서 – 45개의 모델 쌍 전반에 걸쳐, 작업 출현의 순위가 (ρ = 0.81) 높은 상관관계를 보이며, 크기와 학습 기간 차이에도 불구하고.
- 복합 작업은 구성 요소보다 뒤처진다 – >70 %의 경우, 복합 작업(예: “retrieve‑and‑add”)은 그 구성 원시 작업들이 이미 정확도 임계값에 도달한 후에야 해당 임계값에 도달한다.
- 표현은 커리큘럼을 인코딩한다 – 인접한 함수 벡터를 가진 작업들은 현재 체크포인트에서 유사하게 동작할 뿐만 아니라 학습 전반에 걸쳐 평행한 학습 궤적을 따른다.
- 예측력 – 함수 벡터만을 사용하여, 저자들은 새로운 구성 작업이 목표 정확도에 도달할 시점을 R²가 0.68에서 0.84 사이인 예측 모델로 예측할 수 있어, 광범위한 탐색의 필요성을 없앤다.
Practical Implications
- Curriculum‑aware model design – 개발자는 모델의 자연스러운 학습 순서에 맞추어 파인‑튜닝이나 커리큘럼 학습 전략을 일정에 맞출 수 있어, 계산 자원 낭비를 줄일 수 있습니다.
- Early‑stage capability estimation – 소수의 기본 과제를 탐색함으로써 엔지니어는 모델이 전체 학습을 마치지 않아도 더 복잡한 다운스트림 애플리케이션에 사용할 준비가 되었는지를 추정할 수 있습니다.
- Debugging and safety – 특정 추론 능력이 특정 기초가 충분히 다져진 뒤에야 나타난다는 사실을 알면 체계적인 테스트를 설계하고 배포된 시스템에서 예상치 못한 동작을 완화할 수 있습니다.
- Model selection – 특정 제품(예: 핵심 지시어 해석이 필요한 챗봇)용 체크포인트를 선택할 때, 암묵적인 커리큘럼을 활용하면 필요한 기본 능력을 이미 마스터한 가장 작은 모델을 원칙적으로 고를 수 있습니다.
- Transfer learning shortcuts – 함수 벡터가 초기 단계에서도 읽을 수 있기 때문에, 목표 과제에 이미 “가깝게” 위치한 체크포인트를 선택해 다운스트림 파인‑튜닝을 가속화할 수 있습니다.
Limitations & Future Work
- Task scope – 탐색 스위트는 비교적 단순하고 합성된 작업에 초점을 맞추고 있습니다; 커리큘럼 가설이 더 풍부하고 실제 세계 벤치마크(예: 코드 생성, 멀티모달 추론)에서 얼마나 잘 확장되는지는 아직 명확하지 않습니다.
- Model families – 모든 실험은 유사한 데이터로 학습된 디코더 전용 트랜스포머를 사용했습니다; 가설이 인코더‑디코더 또는 검색‑보강 아키텍처에도 적용되는지는 보장되지 않을 수 있습니다.
- Threshold sensitivity – 등장 시점은 선택된 정확도 임계값에 의존합니다; 다른 임계값을 사용하면 순서가 바뀔 수 있습니다.
- Predictive model simplicity – 함수 벡터에 대한 선형 회귀는 첫 번째 단계에 불과합니다—보다 표현력이 풍부한 모델(예: 가우시안 프로세스)이 미묘한 동역학을 포착할 수 있습니다.
- Causal interpretation – 상관관계가 인과관계를 증명하지는 않습니다; 향후 연구에서는 원시 요소를 마스킹하는 등 개입을 통해 초기 숙달이 실제로 이후의 합성 능력을 가능하게 하는지를 테스트할 수 있습니다.
Bottom line: 이 논문은 LLM 내부에 숨겨진, 예측 가능하고 모델 자체에서 읽을 수 있는 합성 학습 스케줄을 밝혀냈습니다. 개발자에게는 이를 통해 더 스마트한 학습 파이프라인, 조기 능력 예측, 그리고 차세대 AI 제품을 구축할 때 컴퓨팅 자원을 보다 효율적으로 활용할 수 있는 길이 열립니다.
저자
- Emmy Liu
- Kaiser Sun
- Millicent Li
- Isabelle Lee
- Lindia Tjuatja
- Jen‑tse Huang
- Graham Neubig
논문 정보
- arXiv ID: 2604.08510v1
- 분류: cs.CL
- 출판일: 2026년 4월 9일
- PDF: PDF 다운로드