[Paper] RelayGR: 크로스-스테이지 릴레이-레이스 추론을 통한 긴 시퀀스 생성 추천 스케일링

발행: 2주 전 (2026년 1월 5일 오전 10:34 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2601.01712v1

개요

이 논문은 RelayGR이라는 프로덕션‑급 시스템을 소개한다. 이 시스템은 최신 생성형 추천 모델이 실시간 랭킹의 엄격한 지연 예산을 초과하지 않으면서 훨씬 긴 사용자‑행동 이력을 활용할 수 있게 한다. 시퀀스의 “사용자 프리픽스”를 사전‑계산하고 고대역폭 메모리(HBM)에 뜨겁게 유지함으로써, RelayGR은 더 긴 입력을 제공하고 처리량을 높이면서 대규모 추천 파이프라인을 구동하는 엄격한 P99 지연 서비스‑레벨 목표(SLO)를 충족한다.

주요 기여

Cross‑stage prefix pre‑inference: 대부분의 토큰이 후보 아이템과 독립적임을 보여주며, 최종 랭킹 단계 전에 재사용 가능한 프리픽스를 미리 계산할 수 있게 합니다.
Sequence‑aware trigger: 캐시 압력 및 예상 지연 영향을 기준으로 요청당 프리픽스를 사전 추론할지 여부를 결정하는 경량 입장 제어기입니다.
Affinity‑aware router: 사전 추론된 프리픽스와 이후 랭킹 요청이 동일한 서버 인스턴스에 도달하도록 보장하여 비용이 많이 드는 원격 가져오기를 없앱니다.
Memory‑aware expander: 서버 로컬 DRAM을 보조 캐시로 활용해 요청 간 단기 재사용을 포착하면서 기본 KV 캐시는 HBM에 유지합니다.
Industrial‑scale implementation: Huawei Ascend NPU에 배포되어 최대 1.5× 더 긴 유효 시퀀스 길이와 3.6× SLO 준수 처리량 향상을 보여줍니다.

방법론

Problem Framing – 저자들은 전형적인 다단계 추천 흐름(검색 → 전처리 → 세밀한 랭킹)을 프로파일링하고, 랭킹 단계가 GR 모델을 실행할 수 있는 시간이 수십 밀리초에 불과함을 확인하여 입력 길이에 강제 제한을 두게 된다.
Prefix Isolation – 토큰 의존성을 분석하여 사용자 행동 프리픽스(후보와 무관)와 후보별 접미사를 구분한다. 프리픽스는 사용자 세션당 한 번만 계산되고 이후 검토되는 모든 후보에 재사용될 수 있다.
System Design
- Trigger는 요청 비율과 캐시 점유율을 모니터링하고, 전체 시퀀스를 실시간으로 처리하면 지연 예산을 초과할 “위험” 요청을 표시한다.
- Router는 일관된 해싱 방식을 사용해 사전 추론 작업과 이후 랭킹 요청을 동일한 NPU 인스턴스로 유도하여 KV 캐시가 로컬에 유지되도록 한다.
- Expander는 최근에 사용된 프리픽스의 DRAM 상 복사본을 유지해 프리픽스를 다시 계산하지 않고도 새로운 랭킹 인스턴스의 빠른 워밍업을 가능하게 한다.
Implementation – 파이프라인은 Ascend NPU 런타임 위에 구축되었으며, KV 캐시를 위해 HBM을 활용하고 기존 추천 서비스 스택과 통합한다.

결과 및 발견

측정항목	기준 (RelayGR 없음)	RelayGR
최대 사용 가능한 시퀀스 길이 (토큰)	~200	~300 (≈ 1.5×)
P99 순위 지연 시간 (ms)	28	≤ 28 (변경 없음)
SLO‑준수 처리량 (쿼리/초)	1.0× (기준)	최대 3.6×
KV‑캐시 적중률 (프리픽스)	0 %	92 % (평균)

Latency는 무거운 프리픽스 작업이 중요 경로에서 분리되었기 때문에 동일한 P99 한계 내에 유지됩니다.
Throughput은 순위 단계가 이제 요청당 훨씬 적은 토큰을 처리하게 되면서 크게 확장됩니다.
Cache efficiency는 어피니티 인식 라우팅 덕분에 높으며, 대부분의 순위 요청이 프리픽스를 이미 HBM에 보유하고 있습니다.

Practical Implications

Longer user histories: 긴 사용자 히스토리: 개발자는 보다 풍부한 행동 컨텍스트를 생성형 추천 시스템에 제공하여 지연 시간을 희생하지 않고 개인화를 향상시킬 수 있습니다.
Cost‑effective scaling: 비용 효율적인 확장: 프리픽스를 재사용함으로써 시스템은 쿼리당 연산 사이클을 줄여 기존 하드웨어가 더 높은 QPS를 처리하거나 전력 소비를 낮출 수 있게 합니다.
Simplified model engineering: 단순화된 모델 엔지니어링: 팀은 프로덕션을 위해 별도의 “짧은 시퀀스” 변형을 유지하는 대신 단일 대형 GR 모델을 유지할 수 있습니다.
Generalizable pattern: 범용 가능한 패턴: 릴레이‑레이스 추론 개념은 입력의 큰 부분이 다운스트림 호출 간에 정적일 때(예: 다음 단어 예측, 코드 완성 등) 지연에 민감한 다른 생성 작업에도 적용할 수 있습니다.

제한 사항 및 향후 연구

캐시 footprint: HBM을 사용하더라도 수백만 명의 활성 사용자를 위한 KV 캐시가 메모리 한도를 초과할 수 있으며, 현재 트리거는 최적의 eviction을 근사적으로만 수행합니다.
콜드‑스타트 지연: 처음 이용하는 사용자는 여전히 전체 추론 비용을 부담하게 되며, 논문에서는 워밍‑업 예측기를 제안하지만 구현하지는 않았습니다.
하드웨어 의존성: 이 솔루션은 Ascend NPU와 그들의 HBM 아키텍처에 밀접하게 결합되어 있어, GPU나 CPU로 포팅하려면 메모리‑인식 확장기 설계를 다시 해야 할 수 있습니다.
추천을 넘어선 확장: 향후 연구에서는 릴레이‑레이스 패러다임을 멀티모달 생성 모델이나 빠르게 변하는 동적 후보 집합 시나리오에 적용하는 방안을 탐색할 수 있습니다.

RelayGR은 생성 모델 입력을 정적 부분과 동적 부분으로 나누고 정적 부분을 메모리에 뜨겁게 유지함으로써, 장기 시퀀스 추천 모델을 실제 서비스에 적용할 때 전체 잠재력을 끌어낼 수 있음을 보여줍니다. 실시간 AI 서비스를 구축하는 개발자에게 이 논문은 모델 표현력과 사용자가 기대하는 엄격한 지연 보장을 균형 있게 맞추기 위한 구체적인 청사진을 제공합니다.

저자

Jiarui Wang
Huichao Chai
Yuanhang Zhang
Zongjin Zhou
Wei Guo
Xingkun Yang
Qiang Tang
Bo Pan
Jiawei Zhu
Ke Cheng
Yuting Yan
Shulan Wang
Yingjie Zhu
Zhengfan Yuan
Jiaqi Huang
Yuhan Zhang
Xiaosong Sun
Zhinan Zhang
Hong Zhu
Yongsheng Zhang
Tiantian Dong
Zhong Xiao
Deliang Liu
Chengzhou Lu
Yuan Sun
Zhiyuan Chen
Xinming Han
Zaizhu Liu
Yaoyuan Wang
Ziyang Zhang
Yong Liu
Jinxin Xu
Yajing Sun
Zhoujun Yu
Wenting Zhou
Qidong Zhang
Zhengyong Zhang
Zhonghai Gu
Yibo Jin
Yongxiang Feng
Pengfei Zuo

논문 정보

arXiv ID: 2601.01712v1
분류: cs.DC, cs.AI, cs.LG
발행일: 2026년 1월 5일
PDF: PDF 다운로드

[Paper] RelayGR: 크로스-스테이지 릴레이-레이스 추론을 통한 긴 시퀀스 생성 추천 스케일링

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 설명은 대규모 추론 모델에 걸쳐 일반화될까?

[Paper] Gemini용 프로덕션 준비 프로브 구축

[Paper] ShapeR: 일상적인 캡처에서 강인한 조건부 3D 형태 생성

[Paper] MetaboNet: 제1형 당뇨병 관리를 위한 가장 큰 공개 통합 데이터셋