[Paper] AdaFuse:自适应集成解码与测试时缩放用于LLMs
发布: (2026年1月10日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2601.06022v1
概述
AdaFuse 解决了部署大型语言模型(LLM)时的一个实际痛点:如何在不进行昂贵再训练的情况下,充分利用多个模型。通过在推理过程中动态决定 何时 以及 如何 融合多个 LLM 的输出,AdaFuse 能在问答、推理、翻译等任务上提升答案质量,同时保持推理流水线的轻量化。
关键贡献
- 自适应融合粒度 – 与静态的 token 级别或句子级别合并不同,AdaFuse 在每个解码步骤决定是否进行融合,依据模型的置信度。
- 不确定性驱动的决策规则 – 引入一种简单、计算友好的度量,标记“未确定”的解码状态,仅在需要时触发集成处理。
- 带有多样性感知的测试时扩展 – 当不确定性高时,框架通过温度缩放或 top‑k 采样扩展候选池,以探索多样的续写,然后再进行融合。
- 协同循环 – 扩展产生的多样性反馈到更好的集成决策,形成良性循环,提升最终输出。
- 实证增益 – 在开放域问答、算术推理和机器翻译基准上,相较于强基线平均提升约 ~6.9 %。
方法论
- 输入与模型池 – 一组预训练的大语言模型(不同架构、数据或检查点)保持不变。
- 逐步解码 – 对于每个 token 位置,每个模型提出其下一个 token 的分布。
- 置信度估计 – AdaFuse 计算不确定性得分(例如熵或前 k 概率之间的差距)。
- 决策分支
- 低不确定性 → 选取置信度最高的模型的 token 并继续,无需额外工作。
- 高不确定性 → 启用 测试时缩放:提升 temperature 或采样更大的 top‑k 集合,以生成更丰富的候选列表。
- 自适应融合 – 将所有模型的候选列表在词层对齐,然后使用加权投票方案进行合并,兼顾步骤 4 中引入的多样性。
- 迭代 – 该过程对下一个 token 重复执行,使融合粒度在整个生成过程中动态变化。
整个流水线实现为现有生成 API 的轻量包装,可最小化代码改动直接投入生产。
Source: …
结果与发现
| 任务 | 基线(静态集成) | AdaFuse | 相对提升 |
|---|---|---|---|
| 开放域问答 (TriviaQA) | 78.4 % EM | 84.2 % EM | +7.4 % |
| 算术推理 (GSM‑8K) | 62.1 % Acc | 68.5 % Acc | +6.3 % |
| 机器翻译 (WMT‑En‑De) | 29.8 BLEU | 31.9 BLEU | +7.0 % |
关键要点
- 选择性集成 可节省计算资源(≈30 % 更少的前向传播),因为许多 token 在生成时不需要融合。
- 多样性感知缩放 防止集成模型收敛到相同的主导假设,尤其在模糊或多步骤问题上表现突出。
- 该方法在非常不同的下游任务上均有效,表明不确定性信号具有鲁棒性。
实际意义
- 成本效益高的性能提升 – 开发者可以在不训练更大模型或微调集成模型的情况下提升 LLM 输出;额外的推理开销仅在“困难”标记上产生。
- 即插即用的集成 – 由于 AdaFuse 在解码层面工作,只需几行代码即可将其加入现有的推理服务(例如 OpenAI API 包装器、Hugging Face 流水线)。
- 动态资源分配 – 在对延迟敏感的环境中,可以调节不确定性阈值以在速度与质量之间进行权衡,从而根据 SLA 要求实现自适应限流。
- 更好地处理边缘案例 – 包含多步推理或罕见词汇的任务受益于额外的探索,能够降低幻觉并提升事实性。
限制与未来工作
- 阈值敏感性 – 不确定性阈值需要针对每个任务进行经验调优;设置不佳可能导致计算资源浪费或错失改进。
- 多模型可扩展性 – 虽然 AdaFuse 减少了不必要的融合,但在最坏情况下仍需对高度不确定的 token 并行运行所有模型,这可能会给 GPU 内存带来压力。
- 多样性度量的简易性 – 目前的缩放依赖温度/Top‑k;更复杂的促进多样性的采样器(例如带熵正则化的 nucleus 采样)可能进一步提升性能。
- 更广泛的评估 – 未来工作可以探索代码生成、对话系统和多模态大语言模型,并研究用于学习不确定性阈值的自动化方法。
AdaFuse 为开发者提供了一条务实的路径,能够从现有的大语言模型集群中挤出额外性能,将推理时的不确定性转化为实现更智能、更低成本集成的杠杆。
作者
- Chengming Cui
- Tianxin Wei
- Ziyi Chen
- Ruizhong Qiu
- Zhichen Zeng
- Zhining Liu
- Xuying Ning
- Duo Zhou
- Jingrui He
论文信息
- arXiv ID: 2601.06022v1
- 分类: cs.CL, cs.AI
- 出版日期: 2026年1月9日
- PDF: 下载 PDF