[Paper] Transformer 언어 모델을 위한 Value-Aware 수치 표현

발행: 3주 전 (2026년 1월 15일 오전 03:59 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.09706v1

Overview

Transformers는 언어 작업을 위한 기본 아키텍처가 되었지만, 숫자를 understand하도록 요구받으면 여전히 어려움을 겪습니다—“42”를 또 다른 단어 토큰으로 취급합니다. 논문 **“Value‑Aware Numerical Representations for Transformer Language Models”**는 실제 수치 크기를 모델 입력에 주입하는 간단하고 바로 적용 가능한 수정 방식을 제안하며, 전체 아키텍처를 재설계하지 않고도 산술 및 숫자 처리 능력을 크게 향상시킵니다.

주요 기여

Value‑aware prefix token: 숫자 리터럴 앞에 배치되는 전용 토큰으로, 임베딩을 숫자 값에서 직접 계산합니다(예: 부동소수점 표현에 대한 작은 MLP 사용).
Tokenizer‑agnostic design: 기존 서브‑워드 토크나이저와 무관하게 작동합니다; 숫자 토큰은 그대로 두고 접두사가 누락된 크기 정보를 제공합니다.
Compatibility with decoder‑only Transformers: 모델의 레이어, 어텐션 헤드, 학습 목표 등에 변경이 필요 없습니다.
Comprehensive evaluation: 십진수, 과학적 표기, 혼합 형식 숫자 및 피연산자 길이가 최대 10자리인 다양한 산술 벤치마크(덧셈, 뺄셈, 곱셈, 나눗셈)에서 일관된 성능 향상을 보여줍니다.
Efficiency: 추가된 접두사는 숫자당 고정 크기의 임베딩만을 추가하여 추론 지연 시간과 메모리 오버헤드를 최소화합니다.

방법론

숫자 토큰 감지 전처리 중에 (정수, 부동소수점, 혹은 과학적 표기법에 대한 정규식과 일치하는 모든 토큰).
값 임베딩 생성:
- 리터럴을 부동소수점 값으로 변환합니다.
- 값을 경량 피드포워드 네트워크(보통 2‑계층 MLP)를 통해 전달하여 조밀한 벡터를 얻습니다.
접두사 토큰 삽입 (예: <NUM_VAL>)을 원본 숫자 토큰 앞에 토큰 시퀀스에 추가합니다. 이 접두사의 임베딩은 단계 2에서 계산된 값 임베딩으로 교체됩니다.
증강된 시퀀스 입력을 변형되지 않은 Transformer 모델에 전달합니다. 값 임베딩이 입력의 일부가 되므로, self‑attention 레이어가 하위 토큰의 표현을 계산할 때 크기 정보를 직접 참조할 수 있습니다.
학습 / 미세조정: 저자들은 기존 사전학습 모델(e.g., GPT‑2‑medium)을 증강된 입력을 사용한 산술 데이터셋에 미세조정하여, 모델이 기호적 단서와 값‑인식 단서를 결합하는 방법을 학습하도록 했습니다.

결과 및 발견

Task	Baseline (GPT‑2‑medium)	+ Value‑aware prefix
2자리 덧셈	71 % 정확도	94 %
4자리 뺄셈	48 %	87 %
혼합 형식 곱셈 (소수 + 과학적 표기)	33 %	78 %
10자리 덧셈 (분포 외)	12 %	65 %

형식에 대한 견고성: 일반 정수, 부동소수점 숫자, 과학적 표기 모두에서 동일하게 작동하며, 모델이 토큰 패턴을 외우는 것이 아니라 값 개념을 학습한다는 것을 나타낸다.
일반화: 미세조정 중에 본 것보다 더 긴 피연산자에 대해 모델을 테스트했을 때도 성능 향상이 지속되며, 프리픽스가 모델이 산술 규칙을 외삽하도록 돕는 것으로 보인다.
무시할 수 있는 오버헤드: 프리픽스를 추가하면 평균 토큰 수가 약 0.5 % 증가하고 V100 GPU에서 추론 단계당 <0.2 ms가 추가된다.

Practical Implications

Better data‑processing pipelines: 스프레드시트식 추론, 재무 보고서 생성, 혹은 과학 데이터 요약에 LLM을 활용하는 애플리케이션은 눈에 띄는 산술 오류를 피하기 위해 프리픽스 트릭을 도입할 수 있습니다.
Plug‑and‑play upgrade: 이 방법은 아키텍처 변경을 필요로 하지 않으므로 기존 프로덕션 모델은 전처리 레이어만 업데이트하면 레트로핏할 수 있습니다.
Improved prompt engineering: 개발자는 모델을 숫자 정밀도로 명시적으로 유도하기 위해 (예: “<NUM_VAL> 3.14”)와 같이 요청할 수 있어 사후 보정 스크립트의 필요성을 줄일 수 있습니다.
Foundation for hybrid AI: 값‑인식 표현은 상징적 수치 연산과 신경 언어 이해를 연결해 외부 계산기나 제약 해결기와의 tighter integration을 위한 길을 엽니다.

제한 사항 및 향후 작업

범위가 스칼라 숫자에만 제한됨: 현재 설계는 벡터, 행렬, 단위(예: “5 kg”)와 같은 복합 구조를 처리하지 못합니다. 차원 메타데이터를 인코딩하도록 프리픽스를 확장하는 것은 아직 해결되지 않은 과제입니다.
미세 조정에 의존: 이득은 산술 데이터에 대한 미세 조정 후에 입증되었으며, 즉시 사용 가능한 모델에 대한 제로샷 개선은 미미했습니다.
잠재적인 확장성 문제: 몇 개의 숫자에 대해서는 오버헤드가 미미하지만, 숫자 리터럴이 밀집된 문서는 토큰 길이가 눈에 띄게 증가할 수 있습니다.
향후 방향에는 다음이 포함됩니다:
1. 다중 작업 설정에서 메인 모델과 함께 프리픽스 임베딩을 공동 학습하기.
2. 단위 인식 임베딩 통합.
3. 다른 모달리티(예: 날짜, 타임스탬프)를 위한 값 인식 표현 탐색.

저자

Andreea Dutulescu
Stefan Ruseti
Mihai Dascalu

논문 정보

arXiv ID: 2601.09706v1
분류: cs.CL, cs.AI, cs.LG
발표일: 2026년 1월 14일
PDF: PDF 다운로드

[Paper] Transformer 언어 모델을 위한 Value-Aware 수치 표현

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 설명은 대규모 추론 모델에 걸쳐 일반화될까?

[Paper] Gemini용 프로덕션 준비 프로브 구축

[Paper] 독사과 효과: AI agents의 기술 확장을 통한 중개 시장 전략적 조작

[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 멀티-헤드 잠재 어텐션을 비전-언어 모델에 적용