[Paper] RelayLLM:通过协作解码实现高效推理

发布: (2026年1月9日 GMT+8 01:56)
7 min read
原文: arXiv

Source: arXiv - 2601.05167v1

Overview

论文 RelayLLM 解决了当今 AI 流程中的一个实际痛点:在不支付巨额计算费用的情况下获得大语言模型(LLMs)的深度推理能力。通过让轻量级的小语言模型(SLM)仅在少数它真的处理不了的 token 上“调用”大模型,作者实现了接近 LLM 的性能,同时将推理成本削减了超过 98 %。

关键贡献

  • Token‑level collaborative decoding – SLM 在每个 token 上决定是自行生成还是发出特殊的 “relay” 命令,将控制权交给 LLM。
  • Two‑stage training pipeline – 先进行热身阶段,然后使用 Group Relative Policy Optimization (GRPO) 让 SLM 学会在自主性和策略性求助之间取得平衡。
  • Empirical validation on six reasoning benchmarks – RelayLLM 在六个推理基准上实现平均准确率 49.52 %,缩小了 SLM 与 LLM 之间的大部分差距。
  • Extreme efficiency – 仅在 1.07 % 的生成 token 中调用 LLM,相比于匹配性能的朴素随机路由器,计算成本降低 98.2 %
  • Generalizable framework – 该 relay 机制可以无缝接入任何现有的 SLM/LLM 组合,无需对模型架构进行修改。

方法论

  1. 架构 – 系统由一个 SLM(例如 7B‑参数模型)和一个更大的 LLM(例如 GPT‑3.5‑turbo)组成。SLM 负责主要的解码循环。当它预测到“中继标记”时,解码器暂停,将当前上下文发送给 LLM,并将 LLM 的下一个标记插入输出流。
  2. 训练阶段 1:热身 – 两个模型首先在目标推理任务上使用标准监督学习进行微调,确保它们能够独立解决问题。
  3. 训练阶段 2:GRPO – SLM 的策略(何时发出中继标记)通过强化学习式目标进行优化。GRPO 将标记划分为“关键”和“非关键”两类,并奖励 SLM:
    • 自行正确处理简单标记(减少对 LLM 的依赖)。
    • 在真正困难的标记上调用 LLM(提升整体答案质量)。
      损失函数在任务准确率、转发频率以及不必要的 LLM 调用惩罚之间取得平衡。
  4. 推理 – 运行时,SLM 逐标记生成。如果它发出中继指令,LLM 会立即提供下一个标记;否则,SLM 继续自主生成。此细粒度的交接消除了以往工作中“全有或全无”的路由方式。

结果与发现

Benchmark (6 total)SLM‑only Acc.LLM‑only Acc.RelayLLM Acc.% Tokens Relayed
Avg.~30 %~55 %49.52 %1.07 %
  • 准确率提升:RelayLLM 在所有情况下均比 SLM 高约 20 %(绝对值),并将与 LLM 的差距缩小约 10 个百分点。
  • 成本节约:由于 LLM 只在约 1 % 的 token 上被调用,每次查询的总 FLOPs 降至完整 LLM 运行的约 1.8 %,与“performance‑matched random router”基线的 98.2 % 成本降低相匹配。
  • 鲁棒性:消融实验表明,去除 GRPO 或限制中继 token 词汇表会导致准确率和效率均下降,进一步确认两阶段训练的重要性。

Practical Implications

  • Production‑grade AI services – 公司可以在边缘部署廉价的 SLM(例如在无服务器函数上),仅在最困难的推理步骤时回退到云端托管的 LLM,从而显著降低延迟和 API 成本。
  • Developer tooling – IDE 助手、代码审查器或聊天机器人可以通过在本地处理大多数 token,并仅在检测到“卡住”的 token(例如复杂的逻辑推理)时调用强大的模型,从而保持响应迅速。
  • Energy‑aware AI – 减少 LLM token 的使用直接转化为更低的功耗,符合大规模推理工作负载的可持续发展目标。
  • Modular integration – 由于 RelayLLM 在解码层面工作,它可以在任何现有的 SLM/LLM 组合之上直接添加,无需从头重新训练底层语言模型,从而简化采纳。

限制与未来工作

  • 中继令牌设计 – 当前方法依赖于特殊的令牌词表;将其扩展为更自然的“请求”信号(例如文本提示)可能提升与现成 API 的兼容性。
  • GRPO 的可扩展性 – 使用强化学习训练中继策略可能计算成本高;未来工作可以探索更轻量的模仿学习替代方案。
  • 对多模态任务的泛化 – 本文聚焦于纯文本推理;将令牌级中继应用于视觉‑语言或音频‑文本流水线仍是未解之谜。
  • 动态成本预算 – 目前中继频率是隐式学习的;加入显式成本约束(例如每次查询的预算)可以让开发者对支出与性能的权衡拥有更细致的控制。

作者

  • Chengsong Huang
  • Tong Zheng
  • Langlin Huang
  • Jinyuan Li
  • Haolin Liu
  • Jiaxin Huang

论文信息

  • arXiv ID: 2601.05167v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年1月8日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »