[Paper] RelayLLM：通过协作解码实现高效推理

发布: 1个月前 (2026年1月9日 GMT+8 01:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.05167v1

Overview

论文 RelayLLM 解决了当今 AI 流程中的一个实际痛点：在不支付巨额计算费用的情况下获得大语言模型（LLMs）的深度推理能力。通过让轻量级的小语言模型（SLM）仅在少数它真的处理不了的 token 上“调用”大模型，作者实现了接近 LLM 的性能，同时将推理成本削减了超过 98 %。

关键贡献

Token‑level collaborative decoding – SLM 在每个 token 上决定是自行生成还是发出特殊的 “relay” 命令，将控制权交给 LLM。
Two‑stage training pipeline – 先进行热身阶段，然后使用 Group Relative Policy Optimization (GRPO) 让 SLM 学会在自主性和策略性求助之间取得平衡。
Empirical validation on six reasoning benchmarks – RelayLLM 在六个推理基准上实现平均准确率 49.52 %，缩小了 SLM 与 LLM 之间的大部分差距。
Extreme efficiency – 仅在 1.07 % 的生成 token 中调用 LLM，相比于匹配性能的朴素随机路由器，计算成本降低 98.2 %。
Generalizable framework – 该 relay 机制可以无缝接入任何现有的 SLM/LLM 组合，无需对模型架构进行修改。

方法论

架构 – 系统由一个 SLM（例如 7B‑参数模型）和一个更大的 LLM（例如 GPT‑3.5‑turbo）组成。SLM 负责主要的解码循环。当它预测到“中继标记”时，解码器暂停，将当前上下文发送给 LLM，并将 LLM 的下一个标记插入输出流。
训练阶段 1：热身 – 两个模型首先在目标推理任务上使用标准监督学习进行微调，确保它们能够独立解决问题。
训练阶段 2：GRPO – SLM 的策略（何时发出中继标记）通过强化学习式目标进行优化。GRPO 将标记划分为“关键”和“非关键”两类，并奖励 SLM：
- 自行正确处理简单标记（减少对 LLM 的依赖）。
- 在真正困难的标记上调用 LLM（提升整体答案质量）。
  损失函数在任务准确率、转发频率以及不必要的 LLM 调用惩罚之间取得平衡。
推理 – 运行时，SLM 逐标记生成。如果它发出中继指令，LLM 会立即提供下一个标记；否则，SLM 继续自主生成。此细粒度的交接消除了以往工作中“全有或全无”的路由方式。

结果与发现

Benchmark (6 total)	SLM‑only Acc.	LLM‑only Acc.	RelayLLM Acc.	% Tokens Relayed
Avg.	~30 %	~55 %	49.52 %	1.07 %

准确率提升：RelayLLM 在所有情况下均比 SLM 高约 20 %（绝对值），并将与 LLM 的差距缩小约 10 个百分点。
成本节约：由于 LLM 只在约 1 % 的 token 上被调用，每次查询的总 FLOPs 降至完整 LLM 运行的约 1.8 %，与“performance‑matched random router”基线的 98.2 % 成本降低相匹配。
鲁棒性：消融实验表明，去除 GRPO 或限制中继 token 词汇表会导致准确率和效率均下降，进一步确认两阶段训练的重要性。

Practical Implications

Production‑grade AI services – 公司可以在边缘部署廉价的 SLM（例如在无服务器函数上），仅在最困难的推理步骤时回退到云端托管的 LLM，从而显著降低延迟和 API 成本。
Developer tooling – IDE 助手、代码审查器或聊天机器人可以通过在本地处理大多数 token，并仅在检测到“卡住”的 token（例如复杂的逻辑推理）时调用强大的模型，从而保持响应迅速。
Energy‑aware AI – 减少 LLM token 的使用直接转化为更低的功耗，符合大规模推理工作负载的可持续发展目标。
Modular integration – 由于 RelayLLM 在解码层面工作，它可以在任何现有的 SLM/LLM 组合之上直接添加，无需从头重新训练底层语言模型，从而简化采纳。

限制与未来工作

中继令牌设计 – 当前方法依赖于特殊的令牌词表；将其扩展为更自然的“请求”信号（例如文本提示）可能提升与现成 API 的兼容性。
GRPO 的可扩展性 – 使用强化学习训练中继策略可能计算成本高；未来工作可以探索更轻量的模仿学习替代方案。
对多模态任务的泛化 – 本文聚焦于纯文本推理；将令牌级中继应用于视觉‑语言或音频‑文本流水线仍是未解之谜。
动态成本预算 – 目前中继频率是隐式学习的；加入显式成本约束（例如每次查询的预算）可以让开发者对支出与性能的权衡拥有更细致的控制。

作者

Chengsong Huang
Tong Zheng
Langlin Huang
Jinyuan Li
Haolin Liu
Jiaxin Huang

论文信息

arXiv ID: 2601.05167v1
分类: cs.CL, cs.AI, cs.LG
出版日期: 2026年1月8日
PDF: Download PDF

[Paper] RelayLLM：通过协作解码实现高效推理

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑

[Paper] 我们能在执行机器学习代理之前进行预测吗？

[Paper] 自信的幻觉？通过邻域一致性诊断 LLM 真实性