[Paper] RelayLLM:通过协作解码实现高效推理
发布: (2026年1月9日 GMT+8 01:56)
7 min read
原文: arXiv
Source: arXiv - 2601.05167v1
Overview
论文 RelayLLM 解决了当今 AI 流程中的一个实际痛点:在不支付巨额计算费用的情况下获得大语言模型(LLMs)的深度推理能力。通过让轻量级的小语言模型(SLM)仅在少数它真的处理不了的 token 上“调用”大模型,作者实现了接近 LLM 的性能,同时将推理成本削减了超过 98 %。
关键贡献
- Token‑level collaborative decoding – SLM 在每个 token 上决定是自行生成还是发出特殊的 “relay” 命令,将控制权交给 LLM。
- Two‑stage training pipeline – 先进行热身阶段,然后使用 Group Relative Policy Optimization (GRPO) 让 SLM 学会在自主性和策略性求助之间取得平衡。
- Empirical validation on six reasoning benchmarks – RelayLLM 在六个推理基准上实现平均准确率 49.52 %,缩小了 SLM 与 LLM 之间的大部分差距。
- Extreme efficiency – 仅在 1.07 % 的生成 token 中调用 LLM,相比于匹配性能的朴素随机路由器,计算成本降低 98.2 %。
- Generalizable framework – 该 relay 机制可以无缝接入任何现有的 SLM/LLM 组合,无需对模型架构进行修改。
方法论
- 架构 – 系统由一个 SLM(例如 7B‑参数模型)和一个更大的 LLM(例如 GPT‑3.5‑turbo)组成。SLM 负责主要的解码循环。当它预测到“中继标记”时,解码器暂停,将当前上下文发送给 LLM,并将 LLM 的下一个标记插入输出流。
- 训练阶段 1:热身 – 两个模型首先在目标推理任务上使用标准监督学习进行微调,确保它们能够独立解决问题。
- 训练阶段 2:GRPO – SLM 的策略(何时发出中继标记)通过强化学习式目标进行优化。GRPO 将标记划分为“关键”和“非关键”两类,并奖励 SLM:
- 自行正确处理简单标记(减少对 LLM 的依赖)。
- 在真正困难的标记上调用 LLM(提升整体答案质量)。
损失函数在任务准确率、转发频率以及不必要的 LLM 调用惩罚之间取得平衡。
- 推理 – 运行时,SLM 逐标记生成。如果它发出中继指令,LLM 会立即提供下一个标记;否则,SLM 继续自主生成。此细粒度的交接消除了以往工作中“全有或全无”的路由方式。
结果与发现
| Benchmark (6 total) | SLM‑only Acc. | LLM‑only Acc. | RelayLLM Acc. | % Tokens Relayed |
|---|---|---|---|---|
| Avg. | ~30 % | ~55 % | 49.52 % | 1.07 % |
- 准确率提升:RelayLLM 在所有情况下均比 SLM 高约 20 %(绝对值),并将与 LLM 的差距缩小约 10 个百分点。
- 成本节约:由于 LLM 只在约 1 % 的 token 上被调用,每次查询的总 FLOPs 降至完整 LLM 运行的约 1.8 %,与“performance‑matched random router”基线的 98.2 % 成本降低相匹配。
- 鲁棒性:消融实验表明,去除 GRPO 或限制中继 token 词汇表会导致准确率和效率均下降,进一步确认两阶段训练的重要性。
Practical Implications
- Production‑grade AI services – 公司可以在边缘部署廉价的 SLM(例如在无服务器函数上),仅在最困难的推理步骤时回退到云端托管的 LLM,从而显著降低延迟和 API 成本。
- Developer tooling – IDE 助手、代码审查器或聊天机器人可以通过在本地处理大多数 token,并仅在检测到“卡住”的 token(例如复杂的逻辑推理)时调用强大的模型,从而保持响应迅速。
- Energy‑aware AI – 减少 LLM token 的使用直接转化为更低的功耗,符合大规模推理工作负载的可持续发展目标。
- Modular integration – 由于 RelayLLM 在解码层面工作,它可以在任何现有的 SLM/LLM 组合之上直接添加,无需从头重新训练底层语言模型,从而简化采纳。
限制与未来工作
- 中继令牌设计 – 当前方法依赖于特殊的令牌词表;将其扩展为更自然的“请求”信号(例如文本提示)可能提升与现成 API 的兼容性。
- GRPO 的可扩展性 – 使用强化学习训练中继策略可能计算成本高;未来工作可以探索更轻量的模仿学习替代方案。
- 对多模态任务的泛化 – 本文聚焦于纯文本推理;将令牌级中继应用于视觉‑语言或音频‑文本流水线仍是未解之谜。
- 动态成本预算 – 目前中继频率是隐式学习的;加入显式成本约束(例如每次查询的预算)可以让开发者对支出与性能的权衡拥有更细致的控制。
作者
- Chengsong Huang
- Tong Zheng
- Langlin Huang
- Jinyuan Li
- Haolin Liu
- Jiaxin Huang
论文信息
- arXiv ID: 2601.05167v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年1月8日
- PDF: Download PDF