[Paper] 커리큘럼 학습에서 어떤 언어가 Language‑Model하기 쉬운가?

발행: (2026년 4월 30일 AM 01:09 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2604.26844v1

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 도와드리겠습니다.

개요

이 논문은 학습 일정—특히 커리큘럼 학습(Curriculum Learning, CL)—이 유형학적으로 다양한 언어에 노출될 때 신경 언어 모델(LM)의 귀납적 편향을 어떻게 형성하는지를 조사합니다. 모델에게 먼저 더 쉬운 문장을 제공함으로써, 저자들은 CL이 모델이 “쉽게” 학습한다고 판단하는 언어적 패턴을 크게 바꿀 수 있음을 보여주며, 이는 전 세계 언어에서 특정 언어 구조가 더 흔히 나타나는 이유에 대한 새로운 관점을 제공합니다.

주요 기여

  • 커리큘럼 학습을 변수로 도입하여 LM‑기반 유형학 연구에서 이전에 간과된 요소를 제시한다.
  • CL이 표준 트랜스포머 LM의 겉보이는 귀납적 편향을 변화시킴을 보여주며, 무작위 순서 데이터로 학습했을 때와는 다른 어순 패턴을 선호하게 만든다.
  • 재현 가능한 실험 프레임워크 제공 (어순 구성의 전체 유형학적 공간을 포괄하는 합성 코퍼스)으로 향후 CL 연구에 재사용할 수 있다.
  • 발달형 훈련 방식이 LM 행동을 인간 언어 습득 패턴에 가깝게 만들 수 있다는 실증적 증거를 제시한다.

방법론

  1. 합성 언어 생성 – 저자들은 프로그래밍을 통해 인공 언어를 만들며, 주요 유형론적 특징(예: 주어‑목적어‑동사 vs. 목적어‑동사‑주어 순서)에서 체계적으로 변화를 줍니다.
  2. 교육 과정 설계 – 두 가지 훈련 방식을 비교합니다:
    • Random: 문장을 섞어 일반적인 LM 훈련 파이프라인을 모방합니다.
    • Curriculum: 문장을 구문 복잡도에 따라 정렬합니다(짧고 간단한 절을 먼저; 길고 중첩된 구조를 나중에).
  3. 모델 아키텍처 – 표준 트랜스포머 기반 언어 모델(GPT‑2 규모와 유사)을 각 합성 언어에 대해 두 훈련 방식 모두에서 처음부터 학습시킵니다.
  4. 평가 – 학습 후, 모델이 어순 및 기타 표면적 특징을 예측하는 능력을 조사하여, 연구자들이 각 모델이 내재한 “선호하는” 유형론적 패턴을 추론할 수 있게 합니다.

Results & Findings

  • Curriculum learning leads to a shift in bias: Models trained with CL tend to internalize the more globally common word‑order patterns (e.g., SVO) even when the underlying data distribution is balanced across all orders.
  • Random training preserves the data distribution: Without a curriculum, models reflect the exact frequencies of the training data, showing no systematic preference for typologically common orders.
  • Complexity‑based ordering matters: The benefit is strongest when the curriculum progresses from truly simple syntactic constructions to more complex ones; a naïve “short‑sentence first” schedule yields weaker effects.
  • Generalization improves: CL‑trained models achieve higher perplexity on held‑out sentences that combine familiar simple structures in novel ways, suggesting better abstraction of underlying grammatical rules.

실용적 함의

  • 다중언어 모델 사전 훈련 개선 – 자연어 습득을 모방한 커리큘럼(간단한 발화부터 시작)을 도입하면 대규모 다중언어 LM이 보다 인간과 유사한 편향을 습득하게 되어 저자원 언어 성능을 향상시킬 수 있습니다.
  • 커리큘럼 인식 파인튜닝 – 사전 훈련된 LM을 특정 도메인이나 언어에 적용할 때, 파인튜닝 데이터를 쉬운 순서에서 어려운 순서로 정렬하면 더 빠른 수렴과 보다 견고한 일반화를 얻을 수 있습니다.
  • 언어 기술을 위한 도구 – 형태학적으로 희귀한 언어용 문법 검사기, 파서, 음성‑텍스트 변환 시스템을 개발하는 개발자는 CL을 활용해 모델을 보다 “자연스러운” 구조로 편향시킬 수 있으며, 방대한 주석 코퍼스의 필요성을 줄일 수 있습니다.
  • AI 안전에 대한 통찰 – 훈련 일정이 모델의 귀납적 편향에 미치는 영향을 이해하면, 고위험 응용 분야에 LM을 배포할 때 중요한 문제인 emergent behavior(출현 행동)를 예측하는 데 도움이 됩니다.

제한 사항 및 향후 연구

  • Synthetic data only – 이 연구는 인공적으로 생성된 언어에 의존하며, 실제 세계의 잡음, 어휘 불규칙성 및 사회언어학적 요인은 포착되지 않는다.
  • Single architecture – 실험은 표준 트랜스포머에만 국한되며, 커리큘럼 학습이 순환형 또는 최신 아키텍처(예: 검색 강화 모델)에서도 유사한 효과를 보이는지는 아직 미지이다.
  • Curriculum design space – “단순성”(구문 깊이)이라는 개념 하나만 탐구되었다. 향후 연구에서는 의미적, 형태론적, 혹은 빈도 기반 커리큘럼을 테스트할 수 있다.
  • Long‑term learning dynamics – 논문은 초기 수렴 지점 이후 지속적인 학습에서 커리큘럼 효과가 어떻게 변하는지를 조사하지 않는다.

저자

  • Nadine El‑Naggar
  • Tatsuki Kuribayashi
  • Ted Briscoe

논문 정보

  • arXiv ID: 2604.26844v1
  • 분류: cs.CL
  • 출판일: 2026년 4월 29일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »