[Paper] 대형 언어 모델을 이용한 이벤트 시퀀스 모델링을 위한 Temporal Tokenization 전략

발행: 15시간 전 (2025년 12월 16일 오전 03:10 GMT+9)

10 min read

원문: arXiv

Source: arXiv - 2512.13618v1

개요

이 논문 Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models는 이벤트 스트림 데이터(예: 로그, 센서 판독값, 사용자 행동)로 파인‑튜닝된 대형 언어 모델(LLM)에 시간 정보를 어떻게 제공하는 것이 최적인지 조사한다. 타임스탬프를 토큰으로 변환하는 다섯 가지 방법을 체계적으로 비교함으로써, 저자들은 “올바른” 표현이 하나의 정답이 있는 것이 아니라, 기본 시간 간격의 통계적 형태에 따라 달라진다는 것을 보여준다.

주요 기여

LLM 기반 시퀀스 예측을 위한 시간 토큰화 방법의 최초 대규모 실증 비교.
다섯 가지 서로 다른 인코딩을 평가:
1. 순수 숫자 문자열 (예: "1623456789").
2. 고정밀 바이트 수준 표현 (이진 패킹된 스칼라).
3. 인간 의미 캘린더 토큰 (예: "Mon 09:45").
4. 균일 구간화 (고정 폭 시간 버킷).
5. 적응형 잔차 스칼라 양자화 (동적 구간 + 잔차 비트).
다양한 시간 분포를 포괄하는 데이터셋 모음: 부드러운 로그 정규 도착 간격, 무거운 꼬리 스파이크, 주기적인 캘린더 기반 패턴, 혼합 모달리티 스트림.
데이터 특성에 맞는 토큰화 매칭 가이드라인, 로그 기반 인코딩이나 인간이 읽을 수 있는 토큰이 다른 방법보다 우수할 때를 강조.
재현성과 빠른 실험을 가능하게 하는 오픈소스 벤치마크 코드 및 토크나이저.

Methodology

Data preparation – 저자들은 네 개의 실제 이벤트 스트림(전자상거래 클릭 로그, IoT 센서 알림, 시스템 감사 로그, 캘린더 기반 회의 기록)을 수집했습니다. 각 데이터셋은 정확한 타임스탬프와 함께 주석이 달렸으며, 학습/검증/테스트 폴드로 분할되었습니다.
Tokenization pipelines – 다섯 가지 전략 각각에 대해 타임스탬프를 기본 LLM(30k 토큰 GPT‑NeoX 모델)의 어휘와 호환되는 토큰 시퀀스로 변환했습니다.
- Numeric strings는 단순히 십진수 텍스트로 변환되었습니다.
- Byte‑level은 리틀‑엔디언 64‑비트 IEEE‑754 부동소수점으로 변환한 뒤 개별 바이트로 분할했습니다.
- Calendar tokens는 타임스탬프를 "<MON>", "<09:00>", "<PM>"와 같은 이산 토큰으로 매핑했습니다.
- Uniform binning은 타임라인을 동일한 폭의 구간(예: 5분 구간)으로 나누고 각 타임스탬프를 해당 구간의 인덱스로 교체했습니다.
- Adaptive residual quantization은 먼저 도착 간격에 대한 k‑means 클러스터링으로 거친 구간을 선택하고, 그 잔차를 작은 고정소수점 접미사로 인코딩했습니다.
Fine‑tuning – 토큰화된 모든 스트림을 사용해 동일한 LLM 아키텍처(12‑layer 디코더, 768‑dim 은닉 크기)를 다음 이벤트 예측을 위해 미세조정했습니다. 실험 간 토큰화 효과를 분리하기 위해 학습 하이퍼파라미터는 모두 동일하게 유지되었습니다.
Evaluation metrics – 예측 정확도(top‑1/5), negative log‑likelihood, 그리고 calibration error를 보고했습니다. 추가로 토큰‑레벨 효율성(이벤트당 평균 토큰 수)과 추론 지연 시간도 측정했습니다.
Statistical analysis – 쌍별 부트스트랩 테스트로 유의성을 평가했으며, 분포의 왜도/첨도와 각 인코딩의 상대적 성능 사이의 상관관계를 분석했습니다.

결과 및 발견

Encoding	Best‑performing dataset	Accuracy Δ vs. baseline*	Tokens per event	Inference overhead
Numeric strings	Uniform‑bin dataset	+1.2 %	12	무시할 수 있는
Byte‑level	High‑frequency IoT spikes	+3.8 %	9	+12 ms
Calendar tokens	Mixed‑modality calendar logs	+2.5 %	8	무시할 수 있는
Uniform binning	Smooth log‑normal logs	+0.9 %	6	가장 빠름
Adaptive residual quantization	Heavy‑tailed spiky data	+5.4 %	7	+5 ms

*베이스라인 = 동일 데이터셋에 대한 단순 숫자 문자열.

보편적인 승자는 없음 – 적응형 잔차 양자화는 매우 왜곡되고 버스트가 심한 스트림에서 뛰어나며, 인간 의미 캘린더 토큰은 데이터에 주기적이고 인간 중심의 패턴이 포함될 때 견고합니다.
토큰 효율성이 중요 – 타임스탬프를 더 적은 토큰으로 압축하는 전략(균일 구간화, 캘린더 토큰)은 잘 정의된 분포에서 정확도를 손상시키지 않으면서 지연 시간을 줄입니다.
분포와의 정렬 – 간단한 통계 검사(예: 왜도 > 2)는 적응형 양자화가 단순한 방식보다 언제 우수할지를 예측할 수 있습니다.

Practical Implications

LLM‑powered log analytics – 엔지니어는 업무 시간 패턴이 포함된 시스템 로그에 캘린더 토크나이저를 교체하여 추가 연산 없이도 약간의 정확도 향상을 얻을 수 있습니다.
Edge‑device forecasting – 급증하는 센서 스파이크가 있는 IoT 배포의 경우, 바이트 수준 또는 적응형 잔차 인코딩을 사용하면 모델 크기를 유지하면서 예측 품질을 향상시킬 수 있습니다.
Rapid prototyping – 오픈소스 토크나이저를 사용하면 개발자가 “플러그‑앤‑플레이” 방식으로 실험할 수 있습니다: 새로운 이벤트 스트림에 대해 빠른 분포 분석을 수행한 뒤, 논문의 가이드라인에 따라 적합한 인코딩을 선택합니다.
Cost‑aware inference – 이벤트당 토큰 수가 적을수록 호스팅된 LLM 서비스의 API 사용 요금이 직접적으로 낮아집니다; 지연 시간이나 비용이 주요 고려사항일 때 균일한 빈 구간화나 캘린더 토큰이 매력적입니다.

제한 사항 및 향후 연구

모델 규모 – 실험은 12‑계층, 770 M‑파라미터 디코더에 한정되었으며, 더 큰 instruction‑tuned LLM에서는 결과가 달라질 수 있습니다.
단일 모달 초점 – 연구는 타임스탬프 + 범주형 이벤트 페이로드만 조사했으며, 멀티모달 스트림(예: 텍스트 + 시간)은 탐구되지 않았습니다.
정적 토크나이저 – 모든 인코딩은 전처리 후 고정되었으며, 동적·컨텍스트 인식 토크나이제이션(예: 시간에 대한 학습 임베딩)은 아직 미개척 영역입니다.
실시간 적응 – 향후 연구에서는 프로덕션 환경에서 시간 분포가 변할 때 양자화 구간을 온라인으로 조정하는 방안을 조사할 수 있습니다.

핵심 요약: LLM‑기반 이벤트 예측기를 구축할 때 올바른 시간 토크나이제이션을 선택하는 것은 모델 아키텍처만큼 중요합니다. 인코딩을 데이터의 시간 분포에 맞추면 개발자는 정확도, 효율성 및 비용 측면에서 측정 가능한 향상을 얻을 수 있습니다.

저자

Zefang Liu
Nam Nguyen
Yinzhu Quan
Austin Zhang

논문 정보

arXiv ID: 2512.13618v1
Categories: cs.CL, cs.LG
Published: 2025년 12월 15일
PDF: PDF 다운로드

[Paper] 대형 언어 모델을 이용한 이벤트 시퀀스 모델링을 위한 Temporal Tokenization 전략

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Large-Language Memorization 중 미국 대법원 사건 분류

[Paper] Nemotron-Cascade: 범용 추론 모델을 위한 연쇄 강화 학습 확장

[Paper] 텍스트 그라디언트는 자동 프롬프트 최적화를 위한 결함 있는 은유이다

[Paper] ReFusion: 병렬 자동회귀 디코딩을 갖춘 Diffusion 대형 언어 모델