[논문] 언어 모델을 위한 산수 교육법

발행: (2026년 6월 4일 AM 02:09 GMT+9)
9 분 소요
원문: arXiv

출처: arXiv - 2606.05106v1

개요

이 논문은 인간이 배우는 방식—단계별 교육법—을 언어 모델에 적용하면 작은 모델도 강력한 계산 능력을 가질 수 있는지를 탐구한다. 인도네시아 교실 기법인 GASING을 학습 레시피로 전환함으로써, 저자들은 86 M 파라미터 GPT‑2가 강화학습 없이도 기본 수학을 마스터하고, 보지 않은 문제에서 80 % 이상의 정확도를 달성하며 훨씬 큰 모델과 경쟁할 수 있음을 보여준다.

주요 기여

  • 교육‑주도 데이터 생성: GASING의 좌측‑우측 연산 절차를 자연어 체인‑오브‑생각(Chain‑of‑Thought, CoT) 감독 형태로 변환해 인간 교육을 모방한 커리큘럼을 만든다.
  • 소형 모델을 처음부터 학습: 인도네시아어 음절‑교착어 토크나이저를 사용한 86 M GPT‑2를 다음 토큰 예측만으로 학습한다. RLHF, 보상 모델링, 외부 도구 사용이 전혀 없다.
  • 학습 단계 분석: 손실 곡선과 프로빙을 통해 토큰 암기, 절차 경로 형성, 연관 “정신산술” 출현이라는 세 가지 뚜렷한 단계가 존재함을 확인한다.
  • 기계적 해석 가능성: CoT 정보 그래프에 대한 어텐션‑마스킹, 잔차 스트림 프로빙, 로짓‑렌즈 검사를 적용해 중간 결과가 어디에 어떻게 저장되는지 파악한다.
  • 경쟁력 있는 성능: 소형 모델이 보지 않은 산술 과제에서 80 % 이상의 정확도를 달성하고, 더 복잡한 방법으로 미세조정된 대형 LLM과 경쟁한다.

방법론

  1. 커리큘럼 설계 (GASING → CoT):

    • 각 산술 문제(예: “23 + 47”)를 단위별 연산, 자리올림 등으로 구성된 좌측‑우측 순서의 기본 연산 시퀀스로 분해한다.
    • 단계별 추론을 자연어로 기술해 체인‑오브‑생각을 만든 뒤, 이를 학습 텍스트에 포함시킨다.
  2. 토크나이저 & 모델:

    • 맞춤형 TOBA 토크나이저는 인도네시아어의 음절‑교착어 특성을 반영해 숫자 표현의 토큰 파편화를 최소화한다.
    • 표준 디코더‑전용 GPT‑2 아키텍처(12층, 86 M 파라미터)를 무작위 가중치로 초기화한다.
  3. 학습 체계:

    • 생성된 CoT 데이터셋(≈100만 개 산술 예시)에서 순수 다음 토큰 예측만 수행한다.
    • 강화학습, 외부 계산기 사용, CoT 단계의 자연 순서 이외의 커리큘럼 가중치 적용이 전혀 없다.
  4. 분석 도구:

    • 어텐션‑마스킹 개입: 이전 CoT 단계와 연결된 어텐션 링크를 일시적으로 차단해 모델이 정답을 여전히 생성하는지 확인한다.
    • 잔차‑스트림 프로빙: 은닉 상태에 가벼운 프로브를 학습시켜 중간 합을 예측함으로써 부분 결과가 어디에 저장되는지 밝힌다.
    • 로짓‑렌즈 검사: 각 층에서 로짓을 토큰 공간으로 투사해 모델 내부 “생각”을 시각화한다.

결과 및 발견

지표
보지 않은 산술 정확도> 80 % (원시 텍스트만으로 학습한 기본 GPT‑2는 ~70 %)
대형 모델과 비교*유사한 규모의 1.3 B 파라미터 LLM이 RLHF로 미세조정된 결과와 비슷
학습 단계1️⃣ 토큰 암기 (전체 단계의 첫 10 %) → 2️⃣ 절차 경로 형성 (다음 30 %) → 3️⃣ 연관 회상(“정신산술”) (마지막 60 %)
기계적 통찰2단계 이후 중간 CoT 단계가 마스킹돼도 정답을 낼 수 있어, 모델이 산술 알고리즘을 압축된 형태로 내재화했음을 의미한다.

*논문에서는 소형 모델이 일반 사전학습 + CoT 프롬프트에 의존하는 대형 모델의 성능을 맞추거나 능가한다는 점을 강조한다.

실용적 함의

  • 저자원 산술 어시스턴트: 개발자는 무거운 API나 외부 계산기 없이도 모바일 앱·IoT 등 엣지 디바이스에 작은 독립형 산술 모듈을 삽입할 수 있다.
  • 커리큘럼식 미세조정: 도메인‑특화 절차 지식을 CoT 텍스트로 변환하고 소형 모델을 미세조정하는 재현 가능한 레시피를 제시한다. 이는 단위 변환, 간단한 물리, 코드 디버깅 등 단계적 작업에 적용 가능하다.
  • 설계 단계에서의 해석 가능성: 교육 단계와 학습 데이터를 정렬함으로써 모델의 추론 경로가 보다 투명해져, 규제 산업에서 디버깅 및 컴플라이언스 검사가 쉬워진다.
  • 비용 효율적인 개발: 제한된 GPU 예산만으로도 대규모 RLHF 파이프라인보다 훨씬 적은 연산량으로 학습이 가능해 스타트업·소규모 연구실에 접근성이 높다.

제한점 및 향후 연구

  • 산술 범위: 기본 연산(덧셈, 뺄셈, 곱셈)과 비교적 작은 정수에 국한돼 있으며, 다자리 나눗셈·분수·고등 수학으로 확장은 아직 검증되지 않았다.
  • 언어 특수성: 커리큘럼과 토크나이저가 인도네시아어에 맞춰 설계됐으므로, 다른 언어에서 동일한 효과를 얻으려면 맞춤형 토크나이저와 문화에 적합한 교육 스크립트가 필요할 수 있다.
  • 보지 않은 문제 형식에 대한 일반화: 숫자 값이 바뀐 보지 않은 데이터에는 잘 대응하지만, 새로운 표현 방식이나 표·음성 입력 등 혼합 모달에는 어려움을 겪을 수 있다.
  • 향후 방향: 교육 파이프라인을 알고리즘 추론·자료구조 조작 등 다른 분야에 확장하고, 적당한 수준의 RLHF와 결합해 정확도를 더욱 끌어올리며, 학습된 절차 경로가 이후 광범위한 NLP 작업에 미치는 전이 효과를 조사한다.

저자

  • Andhika Bernard Lumbantobing
  • Hokky Situngkir

논문 정보

  • arXiv ID: 2606.05106v1
  • 분류: cs.CL, cs.AI, cs.CY
  • 발표일: 2026년 6월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »