[Paper] 커리큘럼 학습에서 어떤 언어가 Language‑Model하기 쉬운가?

발행: 18시간 전 (2026년 4월 30일 AM 01:09 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2604.26844v1

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 도와드리겠습니다.

개요

이 논문은 학습 일정—특히 커리큘럼 학습(Curriculum Learning, CL)—이 유형학적으로 다양한 언어에 노출될 때 신경 언어 모델(LM)의 귀납적 편향을 어떻게 형성하는지를 조사합니다. 모델에게 먼저 더 쉬운 문장을 제공함으로써, 저자들은 CL이 모델이 “쉽게” 학습한다고 판단하는 언어적 패턴을 크게 바꿀 수 있음을 보여주며, 이는 전 세계 언어에서 특정 언어 구조가 더 흔히 나타나는 이유에 대한 새로운 관점을 제공합니다.

주요 기여

커리큘럼 학습을 변수로 도입하여 LM‑기반 유형학 연구에서 이전에 간과된 요소를 제시한다.
CL이 표준 트랜스포머 LM의 겉보이는 귀납적 편향을 변화시킴을 보여주며, 무작위 순서 데이터로 학습했을 때와는 다른 어순 패턴을 선호하게 만든다.
재현 가능한 실험 프레임워크 제공 (어순 구성의 전체 유형학적 공간을 포괄하는 합성 코퍼스)으로 향후 CL 연구에 재사용할 수 있다.
발달형 훈련 방식이 LM 행동을 인간 언어 습득 패턴에 가깝게 만들 수 있다는 실증적 증거를 제시한다.

방법론

합성 언어 생성 – 저자들은 프로그래밍을 통해 인공 언어를 만들며, 주요 유형론적 특징(예: 주어‑목적어‑동사 vs. 목적어‑동사‑주어 순서)에서 체계적으로 변화를 줍니다.
교육 과정 설계 – 두 가지 훈련 방식을 비교합니다:
- Random: 문장을 섞어 일반적인 LM 훈련 파이프라인을 모방합니다.
- Curriculum: 문장을 구문 복잡도에 따라 정렬합니다(짧고 간단한 절을 먼저; 길고 중첩된 구조를 나중에).
모델 아키텍처 – 표준 트랜스포머 기반 언어 모델(GPT‑2 규모와 유사)을 각 합성 언어에 대해 두 훈련 방식 모두에서 처음부터 학습시킵니다.
평가 – 학습 후, 모델이 어순 및 기타 표면적 특징을 예측하는 능력을 조사하여, 연구자들이 각 모델이 내재한 “선호하는” 유형론적 패턴을 추론할 수 있게 합니다.

Results & Findings

Curriculum learning leads to a shift in bias: Models trained with CL tend to internalize the more globally common word‑order patterns (e.g., SVO) even when the underlying data distribution is balanced across all orders.
Random training preserves the data distribution: Without a curriculum, models reflect the exact frequencies of the training data, showing no systematic preference for typologically common orders.
Complexity‑based ordering matters: The benefit is strongest when the curriculum progresses from truly simple syntactic constructions to more complex ones; a naïve “short‑sentence first” schedule yields weaker effects.
Generalization improves: CL‑trained models achieve higher perplexity on held‑out sentences that combine familiar simple structures in novel ways, suggesting better abstraction of underlying grammatical rules.

실용적 함의

다중언어 모델 사전 훈련 개선 – 자연어 습득을 모방한 커리큘럼(간단한 발화부터 시작)을 도입하면 대규모 다중언어 LM이 보다 인간과 유사한 편향을 습득하게 되어 저자원 언어 성능을 향상시킬 수 있습니다.
커리큘럼 인식 파인튜닝 – 사전 훈련된 LM을 특정 도메인이나 언어에 적용할 때, 파인튜닝 데이터를 쉬운 순서에서 어려운 순서로 정렬하면 더 빠른 수렴과 보다 견고한 일반화를 얻을 수 있습니다.
언어 기술을 위한 도구 – 형태학적으로 희귀한 언어용 문법 검사기, 파서, 음성‑텍스트 변환 시스템을 개발하는 개발자는 CL을 활용해 모델을 보다 “자연스러운” 구조로 편향시킬 수 있으며, 방대한 주석 코퍼스의 필요성을 줄일 수 있습니다.
AI 안전에 대한 통찰 – 훈련 일정이 모델의 귀납적 편향에 미치는 영향을 이해하면, 고위험 응용 분야에 LM을 배포할 때 중요한 문제인 emergent behavior(출현 행동)를 예측하는 데 도움이 됩니다.

제한 사항 및 향후 연구

Synthetic data only – 이 연구는 인공적으로 생성된 언어에 의존하며, 실제 세계의 잡음, 어휘 불규칙성 및 사회언어학적 요인은 포착되지 않는다.
Single architecture – 실험은 표준 트랜스포머에만 국한되며, 커리큘럼 학습이 순환형 또는 최신 아키텍처(예: 검색 강화 모델)에서도 유사한 효과를 보이는지는 아직 미지이다.
Curriculum design space – “단순성”(구문 깊이)이라는 개념 하나만 탐구되었다. 향후 연구에서는 의미적, 형태론적, 혹은 빈도 기반 커리큘럼을 테스트할 수 있다.
Long‑term learning dynamics – 논문은 초기 수렴 지점 이후 지속적인 학습에서 커리큘럼 효과가 어떻게 변하는지를 조사하지 않는다.

저자

Nadine El‑Naggar
Tatsuki Kuribayashi
Ted Briscoe

논문 정보

arXiv ID: 2604.26844v1
분류: cs.CL
출판일: 2026년 4월 29일
PDF: PDF 다운로드

[Paper] 커리큘럼 학습에서 어떤 언어가 Language‑Model하기 쉬운가?

개요

주요 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 조류를 바꾸다: Cross-Architecture Distillation for Diffusion Large Language Models

[Paper] 선택적 사고: 지역 충분성을 통한 SLM 잠재력 해제

[Paper] HalluCiteChecker: AI 과학자 시대의 허위 인용 탐지 및 검증을 위한 경량 툴킷

[Paper] Encoder 중심 Speech Recognition Models를 위한 텍스트 활용