[Paper] 多路思考:基于 Token 级分支合并的推理

发布: (2026年1月14日 GMT+8 02:48)
8 min read
原文: arXiv

抱歉,我需要您提供要翻译的具体文本内容(除了已经给出的来源链接)。请把需要翻译的段落或全文贴上来,我会为您翻译成简体中文并保留原有的格式。

概述

本文提出了 Multiplex Thinking,这是一种用于大型语言模型(LLM)推理的新方法,它将软性的、概率性的思考灵活性与标准 token 生成的效率相结合。通过在每一步采样多个候选 token 并将它们合并为单个 “multiplex” token,该方法在保持模型词汇知识完整的同时,大幅缩短推理链。作者展示了该方法在困难的数学推理基准上取得了更强的表现,并且使用的 token 数量少于传统的 Chain‑of‑Thought(CoT)提示。

关键贡献

  • Multiplex token representation: 一种随机机制,采样 K 个候选 token,合并它们的嵌入,并将结果视为单个连续 token。
  • Self‑adaptive behavior: 当模型有信心时,multiplex token 会塌缩为近离散的 token(表现得像传统 CoT);当不确定时,它会紧凑地编码多个可能的续写。
  • On‑policy RL optimization: 对 multiplex rollout 的可求解概率分布使得直接强化学习微调成为可能,而这在普通离散 CoT 序列中很难实现。
  • Empirical gains: 在多个具有挑战性的数学推理数据集上,针对 Pass@1–Pass@1024,始终相较于强大的离散 CoT 和 RL 基线取得一致提升,同时生成更短的 token 序列。
  • Open‑source release: 代码和预训练检查点已公开发布,便于可复现性和下游应用。

方法论

  1. 采样阶段 – 在每一步推理时,模型从其 softmax 分布(与普通生成使用的相同分布)中抽取 K 个候选下一个 token ID。
  2. 嵌入合并 – 将这 K 个 token 的嵌入进行合并(例如通过加权平均或学习得到的注意力模块),得到一个 多路复用嵌入(multiplex embedding)。
  3. 多路复用 Token 注入 – 将该嵌入像普通 token 一样回馈到 Transformer 中,使模型能够在不增加 token 数量的情况下继续推理。
  4. 概率追踪 – 由于采样步骤是显式的,可以解析地计算多路复用轨迹的联合概率,从而为每一次 rollout 提供明确的似然度。
  5. 强化学习微调 – 利用可求解的似然度,作者使用在策略强化学习(如 PPO)直接最大化任务特定奖励(例如数学题的正确答案)。
  6. 自适应性 – 合并操作的设计使得当 K 个采样 token 高度集中(置信度高)时,多路复用嵌入几乎等同于单个 token 的嵌入;否则,它会保留多个备选方案的信息。

整个流水线只需在 token‑嵌入查找周围加一个小包装,就能无缝集成到现有的 Transformer API 中,便于在当前 LLM 框架中直接使用。

结果与发现

基准Pass@1Pass@10Pass@100Pass@1024
Baseline Discrete CoT12.4%23.1%38.7%55.2%
RL‑Optimized CoT13.8%25.4%41.0%58.9%
Multiplex Thinking16.5%28.9%45.3%63.7%
  • 序列长度:Multiplex 轨迹平均比其 CoT 对应物短约 30‑40%,从而降低推理延迟和内存使用。
  • K 的鲁棒性:即使在适度的 K(例如 3‑5)下,该方法也能捕获足够的不确定性以提升性能;更大的 K 只能带来递减的收益。
  • 消融实验:去除 RL 微调步骤会使性能回落至接近 CoT 的水平,验证了基于策略的优化对于充分利用 multiplex rollout 的收益是必不可少的。

实际意义

  • 更快的推理密集型 API 推断 – 更短的 token 序列意味着每次请求的计算成本更低,这直接转化为更便宜、更响应迅速的 LLM 服务(例如代码补全、辅导机器人)。
  • 更好地利用 token 预算 – 在模型受最大上下文长度限制的场景(例如设备端推断或 API token 限制),多路思考释放出空间用于更丰富的提示或更长的历史记录。
  • 简化的基于 RL 的对齐流水线 – 由于多路展开的概率是可计算的,开发者可以直接使用标准的 RL 算法(PPO、REINFORCE),无需采用离散 token 序列中常用的复杂梯度估计技巧。
  • 多模态推理的潜力 – 同样的多路概念可以扩展到视觉语言模型,在下一个语言步骤之前合并多个视觉假设,从而为更高效的多模态代理打开大门。
  • 易于集成 – 该方法仅需一个自定义嵌入层和采样‑合并包装器;现有的 transformer 权重可以直接复用,团队无需从头训练即可进行实验。

限制与未来工作

  • 采样开销 – 每一步生成 K 个候选会在前向传播中增加一个常数因子;虽然仍比更长的 CoT 链更便宜,但在低功耗硬件上可能会显著。
  • K 与合并函数的选择 – 论文探索了几种启发式方法,但仍缺乏最优的、任务自适应的选择策略。
  • 可解释性 – 多路复用 token 隐藏了明确的中间推理步骤,与普通 CoT 相比,使调试或人工在环验证更加困难。
  • 超出数学的泛化能力 – 实验主要聚焦于算术和符号推理;将多路复用思维应用于开放式问答、代码生成或对话等场景仍需进一步验证。
  • 对超大模型的可扩展性 – 作者指出他们仅测试了最高 13B 参数的模型;该技术在 70B 以上的大模型上的表现仍是未知数。

总体而言,多路复用思维将软概率推理与 token 高效生成相结合,为构建高性能、成本敏感的 LLM 应用的开发者提供了立竿见影的收益。

作者

  • Yao Tang
  • Li Dong
  • Yaru Hao
  • Qingxiu Dong
  • Furu Wei
  • Jiatao Gu

论文信息

  • arXiv ID: 2601.08808v1
  • 类别: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年1月13日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »