[Paper] RelayLLM: 효율적인 추론을 위한 협업 디코딩

발행: 1개월 전 (2026년 1월 9일 오전 02:56 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.05167v1

개요

논문 RelayLLM은 오늘날 AI 파이프라인에서 실용적인 문제점에 접근합니다: 대형 언어 모델(LLM)의 깊은 추론 능력을 얻으면서도 거대한 연산 비용을 지불하지 않는 방법. 경량의 소형 언어 모델(SLM)이 실제로 처리할 수 없는 소수의 토큰에 대해서만 대형 모델을 “호출”하도록 함으로써, 저자들은 LLM에 근접한 성능을 달성하면서 추론 비용을 98 % 이상 절감했습니다.

핵심 기여

Token‑level collaborative decoding – SLM은 토큰 단위로 스스로 생성할지, 혹은 제어권을 LLM에 넘기는 특수 “relay” 명령을 발행할지를 결정합니다.
Two‑stage training pipeline – 워밍업 단계에 이어 Group Relative Policy Optimization (GRPO) 를 적용해 SLM이 자율성과 전략적 도움 요청 사이의 균형을 학습하도록 합니다.
Empirical validation on six reasoning benchmarks – RelayLLM은 평균 정확도 49.52 % 를 달성해 SLM과 LLM 사이의 격차 대부분을 메웁니다.
Extreme efficiency – 생성된 토큰 중 1.07 % 만 LLM을 호출해, 성능을 유지하면서도 98.2 % 의 연산 비용 절감을 이룹니다(무작위 라우터 대비).
Generalizable framework – 릴레이 메커니즘은 모델 자체의 구조적 변경 없이 기존 SLM/LLM 조합에 그대로 적용할 수 있습니다.

방법론

아키텍처 – 시스템은 SLM(예: 7B‑parameter 모델)과 훨씬 큰 LLM(예: GPT‑3.5‑turbo)으로 구성됩니다. SLM이 주요 디코딩 루프를 실행합니다. “릴레이 토큰”을 예측하면 디코더가 일시 정지하고 현재 컨텍스트를 LLM에 전달한 뒤, LLM의 다음 토큰을 출력 스트림에 삽입합니다.
훈련 단계 1: 워밍업 – 두 모델 모두 표준 지도 학습을 사용해 대상 추론 작업에 먼저 미세 조정되어, 독립적으로 문제를 해결할 수 있도록 합니다.
훈련 단계 2: GRPO – SLM의 정책(릴레이 토큰을 언제 발행할지)은 강화 학습 스타일 목표로 최적화됩니다. GRPO는 토큰을 “중요”와 “비중요” 집합으로 구분하고, SLM에게 다음에 대해 보상을 줍니다:
- 쉬운 토큰을 스스로 올바르게 처리 (LLM 의존도 감소).
- 진정으로 어려운 토큰에 대해 LLM 호출 (전체 답변 품질 향상).
  손실 함수는 작업 정확도, 릴레이 빈도, 불필요한 LLM 호출에 대한 페널티를 균형 있게 조정합니다.
추론 – 실행 시, SLM은 토큰 단위로 생성합니다. 릴레이 명령을 발행하면 LLM이 즉시 다음 토큰을 제공하고, 그렇지 않으면 SLM이 자율적으로 계속 진행합니다. 이러한 세밀한 핸드오프는 이전 연구에서 사용된 “전부 혹은 전무” 라우팅을 없앱니다.

Results & Findings

Benchmark (6 total)	SLM‑only Acc.	LLM‑only Acc.	RelayLLM Acc.	% Tokens Relayed
Avg.	~30 %	~55 %	49.52 %	1.07 %

Accuracy boost: RelayLLM은 SLM보다 약 20 % 절대적으로 정확도가 높으며, LLM과의 격차를 약 10 % 포인트로 좁힙니다.
Cost savings: LLM이 전체 토큰의 약 1 %만 사용되기 때문에, 쿼리당 전체 FLOPs가 전체 LLM 실행 시의 약 1.8 %로 감소하여 “performance‑matched random router” 기준선의 비용 절감 98.2 %와 동일합니다.
Robustness: Ablation 연구에서 GRPO를 제거하거나 릴레이 토큰 어휘를 제한하면 정확도와 효율성이 모두 저하되는 것으로 나타나, 두 단계 학습의 중요성을 확인했습니다.

실용적 시사점

Production‑grade AI services – 기업은 저렴한 SLM을 엣지(예: 서버리스 함수)에서 배포하고, 가장 어려운 추론 단계에만 클라우드에 호스팅된 LLM을 사용함으로써 지연 시간과 API 비용을 크게 낮출 수 있습니다.
Developer tooling – IDE 어시스턴트, 코드 리뷰어, 혹은 챗봇은 대부분의 토큰을 로컬에서 처리하고 “막힌” 토큰(예: 복잡한 논리 추론)이 감지될 때만 강력한 모델을 호출함으로써 반응성을 유지할 수 있습니다.
Energy‑aware AI – LLM 토큰 사용량을 줄이면 전력 소비가 직접 감소하므로 대규모 추론 워크로드에 대한 지속 가능성 목표와 일치합니다.
Modular integration – RelayLLM이 디코딩 단계에서 작동하기 때문에 기존 SLM/LLM 쌍 위에 별도 재학습 없이 바로 추가할 수 있어 채택이 용이합니다.

Limitations & Future Work

Relay token design – 현재 접근 방식은 특수 토큰 어휘에 의존합니다; 이를 보다 자연스러운 “요청” 신호(예: 텍스트 프롬프트)로 확장하면 기존 API와의 호환성이 향상될 수 있습니다.
Scalability of GRPO – 강화 학습으로 릴레이 정책을 학습하는 것은 계산 비용이 많이 들 수 있습니다; 향후 연구에서는 경량화된 모방 학습 대안을 탐색할 수 있습니다.
Generalization to multimodal tasks – 이 논문은 순수 텍스트 추론에 초점을 맞추고 있으며, 토큰 수준 릴레이를 비전‑언어 또는 오디오‑텍스트 파이프라인에 적용하는 것은 아직 미해결 과제입니다.
Dynamic cost budgeting – 현재 릴레이 빈도는 암묵적으로 학습됩니다; 명시적인 비용 제약(예: 쿼리당 예산)을 도입하면 개발자가 비용 대비 성능 트레이드오프를 보다 세밀하게 제어할 수 있습니다.

저자

Chengsong Huang
Tong Zheng
Langlin Huang
Jinyuan Li
Haolin Liu
Jiaxin Huang

논문 정보

arXiv ID: 2601.05167v1
Categories: cs.CL, cs.AI, cs.LG
Published: 2026년 1월 8일
PDF: Download PDF

[Paper] RelayLLM: 효율적인 추론을 위한 협업 디코딩

개요

핵심 기여

방법론

Results & Findings

실용적 시사점

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs

[Paper] 생각의 분자 구조: Long Chain-of-Thought Reasoning 위상의 매핑

[Paper] 머신러닝 에이전트를 실행하기 전에 예측할 수 있을까?

[Paper] 자신감의 착각? Neighborhood Consistency를 통한 LLM 진실성 진단