[Paper] 并行思考,统一回答:Logit Averaging for 开放式推理
发布: (2025年12月2日 GMT+8 23:35)
6 min read
原文: arXiv
Source: arXiv - 2512.02874v1
概述
论文 “Think in Parallel, Answer as One: Logit Averaging for Open‑Ended Reasoning” 提出了 ThinkMerge,一种简单而强大的解码技术,使大语言模型(LLM)能够并行运行多条推理路径并在生成过程中实时合并它们的预测。通过在关键同步点对下一个 token 的 logits 进行平均,ThinkMerge 能生成单一、连贯的答案,无需事后多数投票——这在代码生成和基于网页的研究代理等开放式任务中尤为有用。
主要贡献
- ThinkMerge 算法:一种无需训练、即插即用的方法,在同步步骤对 K 条并行解码流的 logits 进行平均。
- 兼容性:可与主流推理引擎(vLLM、SGLang)和标准采样策略(Top‑p、Top‑k)配合使用。
- 实证提升:在闭式基准(AIME、GPQA)上匹配或超越传统多数投票,在硬编码基准(LiveCodeBench)上为 DeepCoder‑14B‑Preview 和 Qwen3‑8B 等模型带来 +7‑8 % 的 pass@1 绝对提升。
- 更广影响:提升网页搜索/研究代理(WebSailor‑7B/32B)在 GAIA、BrowseComp‑en/zh、XbenchDeepSearch 数据集上的表现。
- 无需额外训练:该方法可在测试时直接应用,仅需适度的额外计算(运行 K 条并行轨迹)。
方法论
- 并行解码:模型并行生成 K 条独立的 token 流,每条流使用相同的解码超参数(如 temperature、top‑p)。
- 同步点:在预定义的间隔(例如每个 token、每个句子或每个逻辑子步骤后)暂停 K 条流。
- Logit 平均:将每条流的下一个 token logits 求和并取平均,得到单一概率分布。
- 统一采样:从该合并分布中采样一次 token,并将相同的 token 注入所有 K 条流,使它们保持同步。
- 迭代:重复步骤 2‑4,直至生成结束。
由于合并发生在 token 被输出之前,最终输出是一条连贯的单一序列,而不是需要事后投票的多个竞争答案。
结果与发现
| 任务 | 模型 | 基线(单轨) | 多数投票 | ThinkMerge |
|---|---|---|---|---|
| AIME(闭式) | GPT‑4 | 78.4 % | 80.1 % | 80.3 % |
| GPQA(闭式) | LLaMA‑2‑13B | 62.7 % | 64.0 % | 64.2 % |
| LiveCodeBench(硬) | DeepCoder‑14B‑Preview | 31.5 % (pass@1) | 38.2 % | 39.8 % |
| LiveCodeBench(硬) | Qwen3‑8B | 28.9 % | 35.6 % | 36.5 % |
| WebSailor‑7B(GAIA) | – | 45.1 % | 48.3 % | 49.0 % |
- ThinkMerge 在闭式 QA 上始终与多数投票持平或略有超越。
- 在开放式生成(编码、网页搜索)上取得最大收益,因为对完整解答进行投票往往定义不清。
- 该方法随 K 线性扩展(例如 4 路并行约等于 4 倍推理成本),但在高价值应用中性能提升常常值得额外计算。
实际意义
- 开发者工具:IDE 插件或 CI 流水线依赖 LLM 生成代码时,可采用 ThinkMerge 减少不稳定的补全,无需重新训练模型。
- 企业代理:客服机器人、知识库检索代理以及自主网页抓取助手可通过运行少量并行轨迹并实时合并,提高可靠性。
- 成本效益扩展:对于已经配置 GPU 集群进行推理的团队,ThinkMerge 利用现有硬件(同一 GPU 上的并行流)并可直接集成到现有服务栈(vLLM、SGLang)。
- 安全与一致性:Logit 平均会削弱极端 token 概率,可能降低幻觉和有害输出,对安全关键部署是有益的副作用。
- 即插即用:无需模型微调或数据层面改动,只需在生产服务中打开一个配置开关即可启用 ThinkMerge。
局限性与未来工作
- 计算开销:运行 K 条并行轨迹会成倍增加推理成本,对延迟敏感的应用可能难以接受。
- 同步粒度:选择最佳同步点并非易事;同步过于频繁会削弱多样性,过于稀疏则可能错失收益。
- 模型特定行为:不同模型族的增益差异显著;部分小模型提升有限,暗示存在上限效应。
- 未来方向:作者提出自适应 K(动态调整并行流数量)、基于 token 熵的智能同步启发式,以及在微调阶段引入 Logit 平均以降低运行时开销等研究路线。
ThinkMerge 表明,在推理阶段适度的并行性即可为开放式推理任务带来显著的性能提升,为构建下一代 AI 助手和代码生成工具的开发者提供了一条低摩擦的升级路径。
作者
- Haonan Wang
- Chao Du
- Kenji Kawaguchi
- Tianyu Pang
论文信息
- arXiv ID: 2512.02874v1
- 分类: cs.CL
- 发表时间: 2025 年 12 月 2 日
- PDF: Download PDF