[Paper] 多路思考:基于 Token 级分支合并的推理
发布: (2026年1月14日 GMT+8 02:48)
8 min read
原文: arXiv
抱歉,我需要您提供要翻译的具体文本内容(除了已经给出的来源链接)。请把需要翻译的段落或全文贴上来,我会为您翻译成简体中文并保留原有的格式。
概述
本文提出了 Multiplex Thinking,这是一种用于大型语言模型(LLM)推理的新方法,它将软性的、概率性的思考灵活性与标准 token 生成的效率相结合。通过在每一步采样多个候选 token 并将它们合并为单个 “multiplex” token,该方法在保持模型词汇知识完整的同时,大幅缩短推理链。作者展示了该方法在困难的数学推理基准上取得了更强的表现,并且使用的 token 数量少于传统的 Chain‑of‑Thought(CoT)提示。
关键贡献
- Multiplex token representation: 一种随机机制,采样 K 个候选 token,合并它们的嵌入,并将结果视为单个连续 token。
- Self‑adaptive behavior: 当模型有信心时,multiplex token 会塌缩为近离散的 token(表现得像传统 CoT);当不确定时,它会紧凑地编码多个可能的续写。
- On‑policy RL optimization: 对 multiplex rollout 的可求解概率分布使得直接强化学习微调成为可能,而这在普通离散 CoT 序列中很难实现。
- Empirical gains: 在多个具有挑战性的数学推理数据集上,针对 Pass@1–Pass@1024,始终相较于强大的离散 CoT 和 RL 基线取得一致提升,同时生成更短的 token 序列。
- Open‑source release: 代码和预训练检查点已公开发布,便于可复现性和下游应用。
方法论
- 采样阶段 – 在每一步推理时,模型从其 softmax 分布(与普通生成使用的相同分布)中抽取 K 个候选下一个 token ID。
- 嵌入合并 – 将这 K 个 token 的嵌入进行合并(例如通过加权平均或学习得到的注意力模块),得到一个 多路复用嵌入(multiplex embedding)。
- 多路复用 Token 注入 – 将该嵌入像普通 token 一样回馈到 Transformer 中,使模型能够在不增加 token 数量的情况下继续推理。
- 概率追踪 – 由于采样步骤是显式的,可以解析地计算多路复用轨迹的联合概率,从而为每一次 rollout 提供明确的似然度。
- 强化学习微调 – 利用可求解的似然度,作者使用在策略强化学习(如 PPO)直接最大化任务特定奖励(例如数学题的正确答案)。
- 自适应性 – 合并操作的设计使得当 K 个采样 token 高度集中(置信度高)时,多路复用嵌入几乎等同于单个 token 的嵌入;否则,它会保留多个备选方案的信息。
整个流水线只需在 token‑嵌入查找周围加一个小包装,就能无缝集成到现有的 Transformer API 中,便于在当前 LLM 框架中直接使用。
结果与发现
| 基准 | Pass@1 | Pass@10 | Pass@100 | Pass@1024 |
|---|---|---|---|---|
| Baseline Discrete CoT | 12.4% | 23.1% | 38.7% | 55.2% |
| RL‑Optimized CoT | 13.8% | 25.4% | 41.0% | 58.9% |
| Multiplex Thinking | 16.5% | 28.9% | 45.3% | 63.7% |
- 序列长度:Multiplex 轨迹平均比其 CoT 对应物短约 30‑40%,从而降低推理延迟和内存使用。
- 对 K 的鲁棒性:即使在适度的 K(例如 3‑5)下,该方法也能捕获足够的不确定性以提升性能;更大的 K 只能带来递减的收益。
- 消融实验:去除 RL 微调步骤会使性能回落至接近 CoT 的水平,验证了基于策略的优化对于充分利用 multiplex rollout 的收益是必不可少的。
实际意义
- 更快的推理密集型 API 推断 – 更短的 token 序列意味着每次请求的计算成本更低,这直接转化为更便宜、更响应迅速的 LLM 服务(例如代码补全、辅导机器人)。
- 更好地利用 token 预算 – 在模型受最大上下文长度限制的场景(例如设备端推断或 API token 限制),多路思考释放出空间用于更丰富的提示或更长的历史记录。
- 简化的基于 RL 的对齐流水线 – 由于多路展开的概率是可计算的,开发者可以直接使用标准的 RL 算法(PPO、REINFORCE),无需采用离散 token 序列中常用的复杂梯度估计技巧。
- 多模态推理的潜力 – 同样的多路概念可以扩展到视觉语言模型,在下一个语言步骤之前合并多个视觉假设,从而为更高效的多模态代理打开大门。
- 易于集成 – 该方法仅需一个自定义嵌入层和采样‑合并包装器;现有的 transformer 权重可以直接复用,团队无需从头训练即可进行实验。
限制与未来工作
- 采样开销 – 每一步生成 K 个候选会在前向传播中增加一个常数因子;虽然仍比更长的 CoT 链更便宜,但在低功耗硬件上可能会显著。
- K 与合并函数的选择 – 论文探索了几种启发式方法,但仍缺乏最优的、任务自适应的选择策略。
- 可解释性 – 多路复用 token 隐藏了明确的中间推理步骤,与普通 CoT 相比,使调试或人工在环验证更加困难。
- 超出数学的泛化能力 – 实验主要聚焦于算术和符号推理;将多路复用思维应用于开放式问答、代码生成或对话等场景仍需进一步验证。
- 对超大模型的可扩展性 – 作者指出他们仅测试了最高 13B 参数的模型;该技术在 70B 以上的大模型上的表现仍是未知数。
总体而言,多路复用思维将软概率推理与 token 高效生成相结合,为构建高性能、成本敏感的 LLM 应用的开发者提供了立竿见影的收益。
作者
- Yao Tang
- Li Dong
- Yaru Hao
- Qingxiu Dong
- Furu Wei
- Jiatao Gu
论文信息
- arXiv ID: 2601.08808v1
- 类别: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年1月13日
- PDF: 下载 PDF