[Paper] 多路思考：基于 Token 级分支合并的推理

发布: 3周前 (2026年1月14日 GMT+8 02:48)

8 分钟阅读

原文: arXiv

抱歉，我需要您提供要翻译的具体文本内容（除了已经给出的来源链接）。请把需要翻译的段落或全文贴上来，我会为您翻译成简体中文并保留原有的格式。

概述

本文提出了 Multiplex Thinking，这是一种用于大型语言模型（LLM）推理的新方法，它将软性的、概率性的思考灵活性与标准 token 生成的效率相结合。通过在每一步采样多个候选 token 并将它们合并为单个 “multiplex” token，该方法在保持模型词汇知识完整的同时，大幅缩短推理链。作者展示了该方法在困难的数学推理基准上取得了更强的表现，并且使用的 token 数量少于传统的 Chain‑of‑Thought（CoT）提示。

关键贡献

Multiplex token representation: 一种随机机制，采样 K 个候选 token，合并它们的嵌入，并将结果视为单个连续 token。
Self‑adaptive behavior: 当模型有信心时，multiplex token 会塌缩为近离散的 token（表现得像传统 CoT）；当不确定时，它会紧凑地编码多个可能的续写。
On‑policy RL optimization: 对 multiplex rollout 的可求解概率分布使得直接强化学习微调成为可能，而这在普通离散 CoT 序列中很难实现。
Empirical gains: 在多个具有挑战性的数学推理数据集上，针对 Pass@1–Pass@1024，始终相较于强大的离散 CoT 和 RL 基线取得一致提升，同时生成更短的 token 序列。
Open‑source release: 代码和预训练检查点已公开发布，便于可复现性和下游应用。

方法论

采样阶段 – 在每一步推理时，模型从其 softmax 分布（与普通生成使用的相同分布）中抽取 K 个候选下一个 token ID。
嵌入合并 – 将这 K 个 token 的嵌入进行合并（例如通过加权平均或学习得到的注意力模块），得到一个 多路复用嵌入（multiplex embedding）。
多路复用 Token 注入 – 将该嵌入像普通 token 一样回馈到 Transformer 中，使模型能够在不增加 token 数量的情况下继续推理。
概率追踪 – 由于采样步骤是显式的，可以解析地计算多路复用轨迹的联合概率，从而为每一次 rollout 提供明确的似然度。
强化学习微调 – 利用可求解的似然度，作者使用在策略强化学习（如 PPO）直接最大化任务特定奖励（例如数学题的正确答案）。
自适应性 – 合并操作的设计使得当 K 个采样 token 高度集中（置信度高）时，多路复用嵌入几乎等同于单个 token 的嵌入；否则，它会保留多个备选方案的信息。

整个流水线只需在 token‑嵌入查找周围加一个小包装，就能无缝集成到现有的 Transformer API 中，便于在当前 LLM 框架中直接使用。

结果与发现

基准	Pass@1	Pass@10	Pass@100	Pass@1024
Baseline Discrete CoT	12.4%	23.1%	38.7%	55.2%
RL‑Optimized CoT	13.8%	25.4%	41.0%	58.9%
Multiplex Thinking	16.5%	28.9%	45.3%	63.7%

序列长度：Multiplex 轨迹平均比其 CoT 对应物短约 30‑40%，从而降低推理延迟和内存使用。
对 K 的鲁棒性：即使在适度的 K（例如 3‑5）下，该方法也能捕获足够的不确定性以提升性能；更大的 K 只能带来递减的收益。
消融实验：去除 RL 微调步骤会使性能回落至接近 CoT 的水平，验证了基于策略的优化对于充分利用 multiplex rollout 的收益是必不可少的。

实际意义

更快的推理密集型 API 推断 – 更短的 token 序列意味着每次请求的计算成本更低，这直接转化为更便宜、更响应迅速的 LLM 服务（例如代码补全、辅导机器人）。
更好地利用 token 预算 – 在模型受最大上下文长度限制的场景（例如设备端推断或 API token 限制），多路思考释放出空间用于更丰富的提示或更长的历史记录。
简化的基于 RL 的对齐流水线 – 由于多路展开的概率是可计算的，开发者可以直接使用标准的 RL 算法（PPO、REINFORCE），无需采用离散 token 序列中常用的复杂梯度估计技巧。
多模态推理的潜力 – 同样的多路概念可以扩展到视觉语言模型，在下一个语言步骤之前合并多个视觉假设，从而为更高效的多模态代理打开大门。
易于集成 – 该方法仅需一个自定义嵌入层和采样‑合并包装器；现有的 transformer 权重可以直接复用，团队无需从头训练即可进行实验。

限制与未来工作

采样开销 – 每一步生成 K 个候选会在前向传播中增加一个常数因子；虽然仍比更长的 CoT 链更便宜，但在低功耗硬件上可能会显著。
K 与合并函数的选择 – 论文探索了几种启发式方法，但仍缺乏最优的、任务自适应的选择策略。
可解释性 – 多路复用 token 隐藏了明确的中间推理步骤，与普通 CoT 相比，使调试或人工在环验证更加困难。
超出数学的泛化能力 – 实验主要聚焦于算术和符号推理；将多路复用思维应用于开放式问答、代码生成或对话等场景仍需进一步验证。
对超大模型的可扩展性 – 作者指出他们仅测试了最高 13B 参数的模型；该技术在 70B 以上的大模型上的表现仍是未知数。

总体而言，多路复用思维将软概率推理与 token 高效生成相结合，为构建高性能、成本敏感的 LLM 应用的开发者提供了立竿见影的收益。

作者

Yao Tang
Li Dong
Yaru Hao
Qingxiu Dong
Furu Wei
Jiatao Gu

论文信息

arXiv ID: 2601.08808v1
类别: cs.CL, cs.AI, cs.LG
出版日期: 2026年1月13日
PDF: 下载 PDF

[Paper] 多路思考：基于 Token 级分支合并的推理

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力