[Paper] Transformer 언어 모델을 위한 Value-Aware 수치 표현

발행: (2026년 1월 15일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.09706v1

Overview

Transformers는 언어 작업을 위한 기본 아키텍처가 되었지만, 숫자를 understand하도록 요구받으면 여전히 어려움을 겪습니다—“42”를 또 다른 단어 토큰으로 취급합니다. 논문 **“Value‑Aware Numerical Representations for Transformer Language Models”**는 실제 수치 크기를 모델 입력에 주입하는 간단하고 바로 적용 가능한 수정 방식을 제안하며, 전체 아키텍처를 재설계하지 않고도 산술 및 숫자 처리 능력을 크게 향상시킵니다.

주요 기여

  • Value‑aware prefix token: 숫자 리터럴 앞에 배치되는 전용 토큰으로, 임베딩을 숫자 값에서 직접 계산합니다(예: 부동소수점 표현에 대한 작은 MLP 사용).
  • Tokenizer‑agnostic design: 기존 서브‑워드 토크나이저와 무관하게 작동합니다; 숫자 토큰은 그대로 두고 접두사가 누락된 크기 정보를 제공합니다.
  • Compatibility with decoder‑only Transformers: 모델의 레이어, 어텐션 헤드, 학습 목표 등에 변경이 필요 없습니다.
  • Comprehensive evaluation: 십진수, 과학적 표기, 혼합 형식 숫자 및 피연산자 길이가 최대 10자리인 다양한 산술 벤치마크(덧셈, 뺄셈, 곱셈, 나눗셈)에서 일관된 성능 향상을 보여줍니다.
  • Efficiency: 추가된 접두사는 숫자당 고정 크기의 임베딩만을 추가하여 추론 지연 시간과 메모리 오버헤드를 최소화합니다.

방법론

  1. 숫자 토큰 감지 전처리 중에 (정수, 부동소수점, 혹은 과학적 표기법에 대한 정규식과 일치하는 모든 토큰).
  2. 값 임베딩 생성:
    • 리터럴을 부동소수점 값으로 변환합니다.
    • 값을 경량 피드포워드 네트워크(보통 2‑계층 MLP)를 통해 전달하여 조밀한 벡터를 얻습니다.
  3. 접두사 토큰 삽입 (예: <NUM_VAL>)을 원본 숫자 토큰 앞에 토큰 시퀀스에 추가합니다. 이 접두사의 임베딩은 단계 2에서 계산된 값 임베딩으로 교체됩니다.
  4. 증강된 시퀀스 입력을 변형되지 않은 Transformer 모델에 전달합니다. 값 임베딩이 입력의 일부가 되므로, self‑attention 레이어가 하위 토큰의 표현을 계산할 때 크기 정보를 직접 참조할 수 있습니다.
  5. 학습 / 미세조정: 저자들은 기존 사전학습 모델(e.g., GPT‑2‑medium)을 증강된 입력을 사용한 산술 데이터셋에 미세조정하여, 모델이 기호적 단서와 값‑인식 단서를 결합하는 방법을 학습하도록 했습니다.

결과 및 발견

TaskBaseline (GPT‑2‑medium)+ Value‑aware prefix
2자리 덧셈71 % 정확도94 %
4자리 뺄셈48 %87 %
혼합 형식 곱셈 (소수 + 과학적 표기)33 %78 %
10자리 덧셈 (분포 외)12 %65 %
  • 형식에 대한 견고성: 일반 정수, 부동소수점 숫자, 과학적 표기 모두에서 동일하게 작동하며, 모델이 토큰 패턴을 외우는 것이 아니라 개념을 학습한다는 것을 나타낸다.
  • 일반화: 미세조정 중에 본 것보다 더 긴 피연산자에 대해 모델을 테스트했을 때도 성능 향상이 지속되며, 프리픽스가 모델이 산술 규칙을 외삽하도록 돕는 것으로 보인다.
  • 무시할 수 있는 오버헤드: 프리픽스를 추가하면 평균 토큰 수가 약 0.5 % 증가하고 V100 GPU에서 추론 단계당 <0.2 ms가 추가된다.

Practical Implications

  • Better data‑processing pipelines: 스프레드시트식 추론, 재무 보고서 생성, 혹은 과학 데이터 요약에 LLM을 활용하는 애플리케이션은 눈에 띄는 산술 오류를 피하기 위해 프리픽스 트릭을 도입할 수 있습니다.
  • Plug‑and‑play upgrade: 이 방법은 아키텍처 변경을 필요로 하지 않으므로 기존 프로덕션 모델은 전처리 레이어만 업데이트하면 레트로핏할 수 있습니다.
  • Improved prompt engineering: 개발자는 모델을 숫자 정밀도로 명시적으로 유도하기 위해 (예: “<NUM_VAL> 3.14”)와 같이 요청할 수 있어 사후 보정 스크립트의 필요성을 줄일 수 있습니다.
  • Foundation for hybrid AI: 값‑인식 표현은 상징적 수치 연산과 신경 언어 이해를 연결해 외부 계산기나 제약 해결기와의 tighter integration을 위한 길을 엽니다.

제한 사항 및 향후 작업

  • 범위가 스칼라 숫자에만 제한됨: 현재 설계는 벡터, 행렬, 단위(예: “5 kg”)와 같은 복합 구조를 처리하지 못합니다. 차원 메타데이터를 인코딩하도록 프리픽스를 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 미세 조정에 의존: 이득은 산술 데이터에 대한 미세 조정 후에 입증되었으며, 즉시 사용 가능한 모델에 대한 제로샷 개선은 미미했습니다.
  • 잠재적인 확장성 문제: 몇 개의 숫자에 대해서는 오버헤드가 미미하지만, 숫자 리터럴이 밀집된 문서는 토큰 길이가 눈에 띄게 증가할 수 있습니다.
  • 향후 방향에는 다음이 포함됩니다:
    1. 다중 작업 설정에서 메인 모델과 함께 프리픽스 임베딩을 공동 학습하기.
    2. 단위 인식 임베딩 통합.
    3. 다른 모달리티(예: 날짜, 타임스탬프)를 위한 값 인식 표현 탐색.

저자

  • Andreea Dutulescu
  • Stefan Ruseti
  • Mihai Dascalu

논문 정보

  • arXiv ID: 2601.09706v1
  • 분류: cs.CL, cs.AI, cs.LG
  • 발표일: 2026년 1월 14일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »