[Paper] RelayGR: 크로스-스테이지 릴레이-레이스 추론을 통한 긴 시퀀스 생성 추천 스케일링

발행: (2026년 1월 5일 오전 10:34 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.01712v1

개요

이 논문은 RelayGR이라는 프로덕션‑급 시스템을 소개한다. 이 시스템은 최신 생성형 추천 모델이 실시간 랭킹의 엄격한 지연 예산을 초과하지 않으면서 훨씬 긴 사용자‑행동 이력을 활용할 수 있게 한다. 시퀀스의 “사용자 프리픽스”를 사전‑계산하고 고대역폭 메모리(HBM)에 뜨겁게 유지함으로써, RelayGR은 더 긴 입력을 제공하고 처리량을 높이면서 대규모 추천 파이프라인을 구동하는 엄격한 P99 지연 서비스‑레벨 목표(SLO)를 충족한다.

주요 기여

  • Cross‑stage prefix pre‑inference: 대부분의 토큰이 후보 아이템과 독립적임을 보여주며, 최종 랭킹 단계 전에 재사용 가능한 프리픽스를 미리 계산할 수 있게 합니다.
  • Sequence‑aware trigger: 캐시 압력 및 예상 지연 영향을 기준으로 요청당 프리픽스를 사전 추론할지 여부를 결정하는 경량 입장 제어기입니다.
  • Affinity‑aware router: 사전 추론된 프리픽스와 이후 랭킹 요청이 동일한 서버 인스턴스에 도달하도록 보장하여 비용이 많이 드는 원격 가져오기를 없앱니다.
  • Memory‑aware expander: 서버 로컬 DRAM을 보조 캐시로 활용해 요청 간 단기 재사용을 포착하면서 기본 KV 캐시는 HBM에 유지합니다.
  • Industrial‑scale implementation: Huawei Ascend NPU에 배포되어 최대 1.5× 더 긴 유효 시퀀스 길이와 3.6× SLO 준수 처리량 향상을 보여줍니다.

방법론

  1. Problem Framing – 저자들은 전형적인 다단계 추천 흐름(검색 → 전처리 → 세밀한 랭킹)을 프로파일링하고, 랭킹 단계가 GR 모델을 실행할 수 있는 시간이 수십 밀리초에 불과함을 확인하여 입력 길이에 강제 제한을 두게 된다.
  2. Prefix Isolation – 토큰 의존성을 분석하여 사용자 행동 프리픽스(후보와 무관)와 후보별 접미사를 구분한다. 프리픽스는 사용자 세션당 한 번만 계산되고 이후 검토되는 모든 후보에 재사용될 수 있다.
  3. System Design
    • Trigger는 요청 비율과 캐시 점유율을 모니터링하고, 전체 시퀀스를 실시간으로 처리하면 지연 예산을 초과할 “위험” 요청을 표시한다.
    • Router는 일관된 해싱 방식을 사용해 사전 추론 작업과 이후 랭킹 요청을 동일한 NPU 인스턴스로 유도하여 KV 캐시가 로컬에 유지되도록 한다.
    • Expander는 최근에 사용된 프리픽스의 DRAM 상 복사본을 유지해 프리픽스를 다시 계산하지 않고도 새로운 랭킹 인스턴스의 빠른 워밍업을 가능하게 한다.
  4. Implementation – 파이프라인은 Ascend NPU 런타임 위에 구축되었으며, KV 캐시를 위해 HBM을 활용하고 기존 추천 서비스 스택과 통합한다.

결과 및 발견

측정항목기준 (RelayGR 없음)RelayGR
최대 사용 가능한 시퀀스 길이 (토큰)~200~300 (≈ 1.5×)
P99 순위 지연 시간 (ms)28≤ 28 (변경 없음)
SLO‑준수 처리량 (쿼리/초)1.0× (기준)최대 3.6×
KV‑캐시 적중률 (프리픽스)0 %92 % (평균)
  • Latency는 무거운 프리픽스 작업이 중요 경로에서 분리되었기 때문에 동일한 P99 한계 내에 유지됩니다.
  • Throughput은 순위 단계가 이제 요청당 훨씬 적은 토큰을 처리하게 되면서 크게 확장됩니다.
  • Cache efficiency는 어피니티 인식 라우팅 덕분에 높으며, 대부분의 순위 요청이 프리픽스를 이미 HBM에 보유하고 있습니다.

Practical Implications

  • Longer user histories: 긴 사용자 히스토리: 개발자는 보다 풍부한 행동 컨텍스트를 생성형 추천 시스템에 제공하여 지연 시간을 희생하지 않고 개인화를 향상시킬 수 있습니다.
  • Cost‑effective scaling: 비용 효율적인 확장: 프리픽스를 재사용함으로써 시스템은 쿼리당 연산 사이클을 줄여 기존 하드웨어가 더 높은 QPS를 처리하거나 전력 소비를 낮출 수 있게 합니다.
  • Simplified model engineering: 단순화된 모델 엔지니어링: 팀은 프로덕션을 위해 별도의 “짧은 시퀀스” 변형을 유지하는 대신 단일 대형 GR 모델을 유지할 수 있습니다.
  • Generalizable pattern: 범용 가능한 패턴: 릴레이‑레이스 추론 개념은 입력의 큰 부분이 다운스트림 호출 간에 정적일 때(예: 다음 단어 예측, 코드 완성 등) 지연에 민감한 다른 생성 작업에도 적용할 수 있습니다.

제한 사항 및 향후 연구

  • 캐시 footprint: HBM을 사용하더라도 수백만 명의 활성 사용자를 위한 KV 캐시가 메모리 한도를 초과할 수 있으며, 현재 트리거는 최적의 eviction을 근사적으로만 수행합니다.
  • 콜드‑스타트 지연: 처음 이용하는 사용자는 여전히 전체 추론 비용을 부담하게 되며, 논문에서는 워밍‑업 예측기를 제안하지만 구현하지는 않았습니다.
  • 하드웨어 의존성: 이 솔루션은 Ascend NPU와 그들의 HBM 아키텍처에 밀접하게 결합되어 있어, GPU나 CPU로 포팅하려면 메모리‑인식 확장기 설계를 다시 해야 할 수 있습니다.
  • 추천을 넘어선 확장: 향후 연구에서는 릴레이‑레이스 패러다임을 멀티모달 생성 모델이나 빠르게 변하는 동적 후보 집합 시나리오에 적용하는 방안을 탐색할 수 있습니다.

RelayGR은 생성 모델 입력을 정적 부분과 동적 부분으로 나누고 정적 부분을 메모리에 뜨겁게 유지함으로써, 장기 시퀀스 추천 모델을 실제 서비스에 적용할 때 전체 잠재력을 끌어낼 수 있음을 보여줍니다. 실시간 AI 서비스를 구축하는 개발자에게 이 논문은 모델 표현력과 사용자가 기대하는 엄격한 지연 보장을 균형 있게 맞추기 위한 구체적인 청사진을 제공합니다.

저자

  • Jiarui Wang
  • Huichao Chai
  • Yuanhang Zhang
  • Zongjin Zhou
  • Wei Guo
  • Xingkun Yang
  • Qiang Tang
  • Bo Pan
  • Jiawei Zhu
  • Ke Cheng
  • Yuting Yan
  • Shulan Wang
  • Yingjie Zhu
  • Zhengfan Yuan
  • Jiaqi Huang
  • Yuhan Zhang
  • Xiaosong Sun
  • Zhinan Zhang
  • Hong Zhu
  • Yongsheng Zhang
  • Tiantian Dong
  • Zhong Xiao
  • Deliang Liu
  • Chengzhou Lu
  • Yuan Sun
  • Zhiyuan Chen
  • Xinming Han
  • Zaizhu Liu
  • Yaoyuan Wang
  • Ziyang Zhang
  • Yong Liu
  • Jinxin Xu
  • Yajing Sun
  • Zhoujun Yu
  • Wenting Zhou
  • Qidong Zhang
  • Zhengyong Zhang
  • Zhonghai Gu
  • Yibo Jin
  • Yongxiang Feng
  • Pengfei Zuo

논문 정보

  • arXiv ID: 2601.01712v1
  • 분류: cs.DC, cs.AI, cs.LG
  • 발행일: 2026년 1월 5일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...