[Paper] RelayGR: 크로스-스테이지 릴레이-레이스 추론을 통한 긴 시퀀스 생성 추천 스케일링
Source: arXiv - 2601.01712v1
개요
이 논문은 RelayGR이라는 프로덕션‑급 시스템을 소개한다. 이 시스템은 최신 생성형 추천 모델이 실시간 랭킹의 엄격한 지연 예산을 초과하지 않으면서 훨씬 긴 사용자‑행동 이력을 활용할 수 있게 한다. 시퀀스의 “사용자 프리픽스”를 사전‑계산하고 고대역폭 메모리(HBM)에 뜨겁게 유지함으로써, RelayGR은 더 긴 입력을 제공하고 처리량을 높이면서 대규모 추천 파이프라인을 구동하는 엄격한 P99 지연 서비스‑레벨 목표(SLO)를 충족한다.
주요 기여
- Cross‑stage prefix pre‑inference: 대부분의 토큰이 후보 아이템과 독립적임을 보여주며, 최종 랭킹 단계 전에 재사용 가능한 프리픽스를 미리 계산할 수 있게 합니다.
- Sequence‑aware trigger: 캐시 압력 및 예상 지연 영향을 기준으로 요청당 프리픽스를 사전 추론할지 여부를 결정하는 경량 입장 제어기입니다.
- Affinity‑aware router: 사전 추론된 프리픽스와 이후 랭킹 요청이 동일한 서버 인스턴스에 도달하도록 보장하여 비용이 많이 드는 원격 가져오기를 없앱니다.
- Memory‑aware expander: 서버 로컬 DRAM을 보조 캐시로 활용해 요청 간 단기 재사용을 포착하면서 기본 KV 캐시는 HBM에 유지합니다.
- Industrial‑scale implementation: Huawei Ascend NPU에 배포되어 최대 1.5× 더 긴 유효 시퀀스 길이와 3.6× SLO 준수 처리량 향상을 보여줍니다.
방법론
- Problem Framing – 저자들은 전형적인 다단계 추천 흐름(검색 → 전처리 → 세밀한 랭킹)을 프로파일링하고, 랭킹 단계가 GR 모델을 실행할 수 있는 시간이 수십 밀리초에 불과함을 확인하여 입력 길이에 강제 제한을 두게 된다.
- Prefix Isolation – 토큰 의존성을 분석하여 사용자 행동 프리픽스(후보와 무관)와 후보별 접미사를 구분한다. 프리픽스는 사용자 세션당 한 번만 계산되고 이후 검토되는 모든 후보에 재사용될 수 있다.
- System Design
- Trigger는 요청 비율과 캐시 점유율을 모니터링하고, 전체 시퀀스를 실시간으로 처리하면 지연 예산을 초과할 “위험” 요청을 표시한다.
- Router는 일관된 해싱 방식을 사용해 사전 추론 작업과 이후 랭킹 요청을 동일한 NPU 인스턴스로 유도하여 KV 캐시가 로컬에 유지되도록 한다.
- Expander는 최근에 사용된 프리픽스의 DRAM 상 복사본을 유지해 프리픽스를 다시 계산하지 않고도 새로운 랭킹 인스턴스의 빠른 워밍업을 가능하게 한다.
- Implementation – 파이프라인은 Ascend NPU 런타임 위에 구축되었으며, KV 캐시를 위해 HBM을 활용하고 기존 추천 서비스 스택과 통합한다.
결과 및 발견
| 측정항목 | 기준 (RelayGR 없음) | RelayGR |
|---|---|---|
| 최대 사용 가능한 시퀀스 길이 (토큰) | ~200 | ~300 (≈ 1.5×) |
| P99 순위 지연 시간 (ms) | 28 | ≤ 28 (변경 없음) |
| SLO‑준수 처리량 (쿼리/초) | 1.0× (기준) | 최대 3.6× |
| KV‑캐시 적중률 (프리픽스) | 0 % | 92 % (평균) |
- Latency는 무거운 프리픽스 작업이 중요 경로에서 분리되었기 때문에 동일한 P99 한계 내에 유지됩니다.
- Throughput은 순위 단계가 이제 요청당 훨씬 적은 토큰을 처리하게 되면서 크게 확장됩니다.
- Cache efficiency는 어피니티 인식 라우팅 덕분에 높으며, 대부분의 순위 요청이 프리픽스를 이미 HBM에 보유하고 있습니다.
Practical Implications
- Longer user histories: 긴 사용자 히스토리: 개발자는 보다 풍부한 행동 컨텍스트를 생성형 추천 시스템에 제공하여 지연 시간을 희생하지 않고 개인화를 향상시킬 수 있습니다.
- Cost‑effective scaling: 비용 효율적인 확장: 프리픽스를 재사용함으로써 시스템은 쿼리당 연산 사이클을 줄여 기존 하드웨어가 더 높은 QPS를 처리하거나 전력 소비를 낮출 수 있게 합니다.
- Simplified model engineering: 단순화된 모델 엔지니어링: 팀은 프로덕션을 위해 별도의 “짧은 시퀀스” 변형을 유지하는 대신 단일 대형 GR 모델을 유지할 수 있습니다.
- Generalizable pattern: 범용 가능한 패턴: 릴레이‑레이스 추론 개념은 입력의 큰 부분이 다운스트림 호출 간에 정적일 때(예: 다음 단어 예측, 코드 완성 등) 지연에 민감한 다른 생성 작업에도 적용할 수 있습니다.
제한 사항 및 향후 연구
- 캐시 footprint: HBM을 사용하더라도 수백만 명의 활성 사용자를 위한 KV 캐시가 메모리 한도를 초과할 수 있으며, 현재 트리거는 최적의 eviction을 근사적으로만 수행합니다.
- 콜드‑스타트 지연: 처음 이용하는 사용자는 여전히 전체 추론 비용을 부담하게 되며, 논문에서는 워밍‑업 예측기를 제안하지만 구현하지는 않았습니다.
- 하드웨어 의존성: 이 솔루션은 Ascend NPU와 그들의 HBM 아키텍처에 밀접하게 결합되어 있어, GPU나 CPU로 포팅하려면 메모리‑인식 확장기 설계를 다시 해야 할 수 있습니다.
- 추천을 넘어선 확장: 향후 연구에서는 릴레이‑레이스 패러다임을 멀티모달 생성 모델이나 빠르게 변하는 동적 후보 집합 시나리오에 적용하는 방안을 탐색할 수 있습니다.
RelayGR은 생성 모델 입력을 정적 부분과 동적 부분으로 나누고 정적 부분을 메모리에 뜨겁게 유지함으로써, 장기 시퀀스 추천 모델을 실제 서비스에 적용할 때 전체 잠재력을 끌어낼 수 있음을 보여줍니다. 실시간 AI 서비스를 구축하는 개발자에게 이 논문은 모델 표현력과 사용자가 기대하는 엄격한 지연 보장을 균형 있게 맞추기 위한 구체적인 청사진을 제공합니다.
저자
- Jiarui Wang
- Huichao Chai
- Yuanhang Zhang
- Zongjin Zhou
- Wei Guo
- Xingkun Yang
- Qiang Tang
- Bo Pan
- Jiawei Zhu
- Ke Cheng
- Yuting Yan
- Shulan Wang
- Yingjie Zhu
- Zhengfan Yuan
- Jiaqi Huang
- Yuhan Zhang
- Xiaosong Sun
- Zhinan Zhang
- Hong Zhu
- Yongsheng Zhang
- Tiantian Dong
- Zhong Xiao
- Deliang Liu
- Chengzhou Lu
- Yuan Sun
- Zhiyuan Chen
- Xinming Han
- Zaizhu Liu
- Yaoyuan Wang
- Ziyang Zhang
- Yong Liu
- Jinxin Xu
- Yajing Sun
- Zhoujun Yu
- Wenting Zhou
- Qidong Zhang
- Zhengyong Zhang
- Zhonghai Gu
- Yibo Jin
- Yongxiang Feng
- Pengfei Zuo
논문 정보
- arXiv ID: 2601.01712v1
- 분류: cs.DC, cs.AI, cs.LG
- 발행일: 2026년 1월 5일
- PDF: PDF 다운로드