[Paper] 적게 채워 더 많이 맞추다: Training Data Pruning이 Facts Memorization을 개선한다

발행: (2026년 4월 10일 오전 02:55 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2604.08519v1

번역할 텍스트를 제공해 주시겠어요? 현재는 소스 링크만 포함되어 있어 번역할 내용이 없습니다. 필요한 본문을 알려주시면 바로 번역해 드리겠습니다.

Overview

대형 언어 모델(LLM)은 사전 훈련 중에 본 모든 사실 지식을 저장할 수 없기 때문에 종종 “환각”을 일으킨다. 이 논문은 사실 암기를 정보 이론적 용량 문제로 정의하고, 훈련 세트를 정리해—가장 유용한 예시만 남겨두고—모델이 실제로 기억하는 사실의 수를 크게 향상시킬 수 있음을 보여준다. 심지어 작은 모델이 10배 큰 모델의 성능에 맞먹게 할 수도 있다.

주요 기여

  • Theoretical insight: 사실 정확도가 훈련 사실의 총 정보량이 모델의 용량을 초과할 때, 특히 왜곡된 (멱법칙) 사실 빈도 하에서 감소한다는 것을 증명한다.
  • Data‑pruning algorithm: (1) 코퍼스 내 서로 다른 사실의 수를 제한하고 (2) 그들의 빈도 분포를 평탄화하는 간단한 손실 기반 선택 방식을 도입한다.
  • Empirical validation on synthetic data: 프루닝 방법이 고엔트로피, 반합성 데이터셋에서 사실 정확도를 이론적 용량 한계까지 끌어올리는 것을 보여준다.
  • Real‑world pre‑training experiment: 프루닝된 위키피디아 덤프에서 훈련된 GPT‑2‑Small (≈110 M 파라미터)이 전체 덤프에서 훈련된 동일 모델보다 1.3× 더 많은 엔터티 사실을 기억하며, 프루닝되지 않은 데이터로 훈련된 1.3 B 파라미터 모델과 동일한 사실 회수를 달성한다.

Methodology

  1. Formalizing memorization – 저자들은 각 사실을 확률 변수로 모델링하고 fact capacity를 모델이 신뢰성 있게 저장할 수 있는 사실 정보의 최대 비트 수로 정의합니다.
  2. Analyzing data distributions – 학습 데이터 전체 정보량(각 사실 엔트로피의 합)과 사실 빈도 분포의 형태(예: 긴 꼬리 파워 법칙)가 실제 사실 정확도와 용량 한계 사이의 격차에 어떻게 영향을 미치는지를 도출합니다.
  3. Loss‑based pruning – 원시 코퍼스를 처음 한 번 훑는 동안 각 예제에 대한 학습 손실을 기록합니다. 손실이 가장 높은 예제(즉, 모델이 맞추기 가장 어려운 예제)는 유지하고, 손실이 낮은 예제—종종 동일한 사실의 중복 반복—는 제거합니다. 이 알고리즘은 또한 빈도 평탄화를 위해 사실당 할당량을 강제합니다.
  4. Experiments
    • Semi‑synthetic: 각 사실이 알려진 양의 엔트로피를 갖는 데이터셋을 구성하여 이론적 경계와 직접 비교합니다.
    • Wikipedia pre‑training: 주석이 달린 Wikipedia 덤프(엔터티‑설명 쌍)를 사용해 GPT‑2‑Small을 처음부터 미세조정하고, 프루닝 여부에 따라 사실 회수를 측정합니다. 회수 평가는 표준 엔터티‑링크 벤치마크를 사용합니다.

결과 및 발견

설정모델학습 데이터사실 회상 (↑)동일 회상을 위한 상대 크기
반합성Small transformer전체 세트용량의 68 %
반합성Small transformer정제된 세트용량의 99 %
WikipediaGPT‑2‑Small (110 M)전체 Wikipedia엔터티 사실의 45 %기준
WikipediaGPT‑2‑Small (110 M)정제된 Wikipedia엔터티 사실의 58 %≈1.3배 더 많은 사실 기억
WikipediaGPT‑2‑Medium (1.3 B)전체 Wikipedia엔터티 사실의 58 %정제된 작은 모델과 동일 회상
  • 정제는 중복된 반복을 제거하여 모델이 용량을 초과하게 만드는 정보 과부하를 줄인다.
  • 손실 기반 선택자는 자동으로 희귀하거나 엔트로피가 높은 사실에 집중하여 긴 꼬리 분포를 평탄화한다.
  • 이 접근법은 가볍다: 손실을 계산하기 위한 단일 순전파와 간단한 필터링만 필요하며, 추가 모델 파라미터나 복잡한 커리큘럼 스케줄이 없다.

실용적 시사점

  • Cost‑effective scaling: 비용 효율적인 확장: 팀은 실제로 더 큰 모델을 훈련시키는 데 필요한 계산량이나 메모리 예산 없이 “더 큰 모델” 수준의 사실 회상을 달성할 수 있습니다.
  • Reduced hallucinations: 환각 감소: 모델의 사실 메모리를 용량에 가깝게 유지함으로써, downstream 애플리케이션(예: 챗봇, 코드 어시스턴트)에서 허위 진술이 줄어듭니다.
  • Data hygiene for LLMs: LLM을 위한 데이터 위생: 이 기법은 대규모 사전 학습 코퍼스를 정리하는 원칙적인 방법을 제공합니다—과다 대표된 사실을 제거하고 “어려운” 사실을 유지함으로써—지식 집약적인 작업(질문응답, 요약, 엔터티 추출)에서 downstream 성능을 향상시킬 가능성이 있습니다.
  • Simpler pipelines: 간소화된 파이프라인: 이 방법은 훈련 손실만을 사용하므로 외부 지식 그래프나 수동 주석 없이 기존 데이터 준비 스크립트에 통합할 수 있습니다.

제한 사항 및 향후 연구

  • 손실 품질에 대한 의존성: 초기 단계 손실 추정치는 잡음이 많을 수 있으며; 저자들은 매우 작은 모델은 사실을 잘못 순위 매길 수 있어 가지치기 효과가 제한된다고 언급한다.
  • 사실의 범위: 이 연구는 엔터티 유형 사실 진술에 초점을 맞추며, 절차적이거나 상식적 지식으로 확장하는 것은 아직 열려 있다.
  • 잠재적 편향 도입: 공격적인 가지치기는 모델에게 “쉽다”고 보이는 경우 소수 언어 혹은 틈새 도메인 사실을 무심코 버릴 수 있으므로 공정성을 고려한 필터가 필요할 수 있다.
  • 동적 커리큘럼: 향후 연구에서는 모델이 학습함에 따라 진화하는 적응형 가지치기를 탐구할 수 있다(정적 일회성 선택이 아니라).

핵심 요점: 사실 암기를 용량 문제로 간주하고 훈련 데이터를 그 용량에 맞게 다듬음으로써, 개발자는 작은 LLM에서 더 많은 지식을 끌어낼 수 있다—비용 절감, 환각 감소, 데이터 파이프라인 단순화가 가능하다.

저자

  • Jiayuan Ye
  • Vitaly Feldman
  • Kunal Talwar

논문 정보

  • arXiv ID: 2604.08519v1
  • 분류: cs.CL, stat.ML
  • 출판일: 2026년 4월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »