[Paper] BSAT: B‑Spline Adaptive Tokenizer를 이용한 장기 시계열 예측
Source: arXiv - 2601.00698v1
개요
이 논문은 BSAT (B‑스플라인 적응형 토크나이저) 를 소개합니다. 이는 변압기 모델을 위한 장기 시계열 데이터를 전처리하는 새로운 방법으로, 원시 시계열에 B‑스플라인을 피팅함으로써 신호 중 가장 “흥미로운”(고곡률) 부분에 자동으로 초점을 맞춘 토큰을 생성합니다. 이를 통해 모델이 처리해야 하는 토큰 수를 크게 줄이면서도 예측 정확도를 유지합니다.
주요 기여
- B‑스플라인을 통한 적응형 토크나이제이션 – 시계열이 급격히 변하는 지점에 토큰을 배치하고, 부드러운 구간을 단일 토큰으로 병합하는 파라미터 없이 동작하는 알고리즘.
- 고정 크기 토큰 표현 – 가변 길이 스플라인 구간마다 계수와 위치 메타데이터를 포함하는 압축 토큰으로 인코딩됩니다.
- 하이브리드 위치 인코딩 (L‑RoPE) – 학습 가능한 가산 인코딩과 회전 임베딩을 결합하며, 회전 임베딩의 베이스를 각 트랜스포머 레이어마다 조정할 수 있어 레이어별로 서로 다른 시간 스케일을 포착합니다.
- 높은 압축률과 경쟁력 있는 정확도 – 표준 장기 예측 벤치마크에 대한 광범위한 실험 결과, BSAT는 토큰 수를 크게 줄이면서 최신 모델과 동등하거나 능가하는 성능을 보였습니다.
- 메모리 효율적인 설계 – GPU 메모리가 병목인 엣지 디바이스나 클라우드 서비스에 특히 매력적입니다.
Source: …
Methodology
-
Fit B‑splines to the raw series
- 알고리즘은 시계열의 각 단일 채널에 대해 조각별 다항식 B‑spline을 피팅합니다.
- 스플라인 조각이 연결되는 매듭점은 곡률이 높은 위치, 즉 두 번째 미분값이 임계값을 초과하는 지점에 자동으로 배치됩니다.
-
Token creation
- 각 스플라인 구간이 하나의 토큰이 됩니다.
- 토큰은 다음을 저장합니다:
- 구간의 형태를 정의하는 스플라인 계수(들),
- 구간의 시작 시간(또는 정규화된 위치),
- 작은 선형 레이어를 통해 계수 벡터를 투사하여 얻은 고정 차원(예: 64‑dim).
-
Hybrid positional encoding (L‑RoPE)
- Additive learnable PE: 각 토큰에 더해지는 표준 학습 가능한 벡터.
- Rotary PE: 토큰 임베딩을 타임스탬프에 따라 회전시킵니다; 회전 기반은 레이어마다 달라질 수 있는 학습 가능한 스칼라이며, 이를 통해 깊은 레이어가 더 긴 시계열을 주목할 수 있습니다.
-
Transformer backbone
- 토큰 시퀀스(이제 훨씬 짧아짐)를 표준 인코더‑디코더 또는 인코더‑전용 트랜스포머에 입력합니다.
- 토큰 수가 감소했기 때문에, 자체‑어텐션의 2차 비용이 매우 긴 시계열에서도 무시할 수 있을 정도로 낮아집니다.
-
Training & inference
- 전체 파이프라인(토크나이징 + 트랜스포머)은 엔드‑투‑엔드로 미분 가능하며, 트랜스포머 파라미터만 학습됩니다. B‑spline 피팅은 결정적이며 파라미터가 필요 없습니다.
결과 및 발견
| 데이터셋 (벤치마크) | 예측 지평선 | 토큰 / 입력 길이 | MAE ↓ / MSE ↓ (baseline 대비) |
|---|---|---|---|
| ETTh1 | 96 | 원본의 1/8 | +3.2 % MAE, +2.8 % MSE |
| Traffic | 336 | 원본의 1/10 | +2.5 % MAE, +2.1 % MSE |
| Electricity | 168 | 원본의 1/12 | +1.9 % MAE, +1.7 % MSE |
- 압축 vs. 정확도 트레이드오프: 90 % 압축(즉, 원본 토큰의 10 %만 사용)에서도 대부분의 벤치마크에서 BSAT의 오류 증가율이 5 % 이하로 유지됩니다.
- 메모리 사용량: GPU 메모리 사용량이 기존 vanilla transformer 기준보다 최대 80 % 감소합니다.
- 소거 실험: L‑RoPE를 제거하거나 균일(비적응) 토큰화를 사용할 경우 성능이 4–7 % 감소하여 두 요소의 중요성을 확인할 수 있습니다.
전반적으로 BSAT는 최첨단 장기 예측을 제공하면서도 제한된 환경에 적합하도록 모델을 가볍게 유지합니다.
실용적 함의
- Edge & IoT 배포 – 스마트 그리드, 산업용 IoT 등 고주파 데이터를 생성하는 센서는 제한된 RAM을 가진 장치에서 BSAT 기반 예측기를 실행할 수 있어 배터리 수명을 연장하고 클라우드 대역폭 사용을 감소시킵니다.
- 비용 효율적인 클라우드 서비스 – 메모리 사용량 감소는 SaaS 예측 플랫폼을 위한 GPU 인스턴스 비용 절감으로 이어져 더 높은 요청 처리량을 가능하게 합니다.
- 동적 해상도 – 토큰이 높은 활동 기간에 집중되므로 개발자는 트래픽이나 수요 급증과 같이 중요한 시점에 더 세밀한 예측을 얻을 수 있습니다.
- 플러그‑앤‑플레이 – BSAT은 전처리 레이어이므로 기존 트랜스포머 코드베이스에 최소한의 변경만으로 적용할 수 있어 통합이 간단합니다.
- 설명 가능성 – 스플라인 노드는 모델이 시계열의 어느 부분을 중요하게 여기는지 시각화할 수 있는 자연스러운 방법을 제공하여 디버깅 및 이해관계자와의 커뮤니케이션에 도움을 줍니다.
제한 사항 및 향후 작업
- Assumes smoothness – B‑splines는 기본 신호가 구간별로 매끄러운 경우에 가장 잘 작동합니다; 매우 잡음이 많거나 혼돈적인 시계열은 추가적인 노이즈 제거 단계가 필요할 수 있습니다.
- Univariate tokenization – 현재 구현은 각 변수를 독립적으로 토큰화합니다; 다변량 스플라인 피팅으로 확장하면 채널 간 동역학을 보다 효율적으로 포착할 수 있습니다.
- Fixed spline order – 논문에서는 고정된 3차 스플라인을 사용합니다; 적응형 차수나 다른 기저 함수(예: 웨이브렛)를 탐색하면 특정 분야에서 표현력을 향상시킬 수 있습니다.
- Scalability of knot detection – 알고리즘은 시계열 길이에 대해 선형이지만, 수십억 포인트에 달하는 초장기 스트림은 스트리밍 방식이나 계층적 노드 선택 스키마를 통해 이점을 얻을 수 있습니다.
향후 연구 방향으로는 다변량 적응형 토크나이저, 실시간 스트림을 위한 온라인 스플라인 피팅, 그리고 초장기 예측 한계를 넓히기 위한 BSAT와 희소‑어텐션 트랜스포머의 결합 등이 포함됩니다.
저자
- Maximilian Reinwardt
- Michael Eichelbeck
- Matthias Althoff
논문 정보
- arXiv ID: 2601.00698v1
- 카테고리: cs.LG
- 출판일: 2026년 1월 2일
- PDF: PDF 다운로드