[论文] 使用Jacobi Forcing 的快速且准确的因果并行解码

发布: 1个月前 (2025年12月17日 GMT+8 02:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.14681v1

概述

论文 “Fast and Accurate Causal Parallel Decoding using Jacobi Forcing” 解决了部署大型语言模型（LLMs）时的最大瓶颈之一：慢速的逐标记（autoregressive）生成，使实时应用感到卡顿。通过引入一种称为 Jacobi Forcing 的新训练范式，作者将标准的因果（left‑to‑right）transformer 转变为 parallel decoder，能够一次生成多个标记，同时保持传统 autoregressive 模型的质量。他们的实验在编码和数学任务上实现了高达 3.8×–4.0× 的壁钟时间加速，且准确率仅有极小的下降。

关键贡献

Jacobi 强制范式 – 一种渐进蒸馏技术，模型在自身的并行解码轨迹上进行训练，平滑地弥合自回归预训练与并行推理之间的差距。
因果兼容的并行解码器 – 保留预训练期间学习到的因果注意力偏置，实现 KV‑缓存的精确复用（在 GPU/TPU 上显著加速）。
带有拒绝回收的多块解码 – 一种运行时策略，复用部分被接受的 token 块，使每次迭代接受的 token 数量提升至 4.5 倍。
实证验证 – 在代码生成（HumanEval）和数学推理（MATH）基准上实现 3.8 倍加速，且 pass@1 或准确率的绝对下降低于 1%。
开源发布 – 代码、训练脚本和预训练检查点均已公开，可降低行业采纳的门槛。

方法论

从标准因果 Transformer 开始（例如 GPT‑style），该模型已在大规模文本语料上进行预训练。
生成并行解码轨迹：在训练期间，模型在一次前向传播中预测整块未来 token，使用自身先前的预测作为输入（类似于扩散 LLM 的工作方式）。
Jacobi 强制损失：模型会因偏离真实序列以及偏离自身早期的并行预测而受到惩罚。这种“自我强制”会逐步将模型从严格的左到右生成转向可靠的块式生成。
课程调度——早期 epoch 主要依赖教师（真实标签），后期 epoch 增加自生成轨迹的权重，确保平滑过渡，避免早期并行解码尝试中常见的“预训练/后训练不匹配”。
使用 KV‑缓存复用进行推理：由于模型内部仍遵循因果顺序，针对早期 token 构建的键值缓存可以在块之间复用，避免双向解码器所需的高昂重新计算。
多块解码 + 拒绝回收：在推理时，模型会生成多个候选块；未通过轻量一致性检查的块会被拒绝并重新生成，接受的块则保留，从而有效提升每次迭代的 token 产出率。

结果与发现

Benchmark	Metric (baseline AR)	Jacobi Forcing (speed‑up)	Accuracy Δ
HumanEval (code)	71.2% pass@1	3.8× wall‑clock	–0.6%
MATH (math)	45.3% accuracy	3.9× wall‑clock	–0.8%
WikiText‑103 (perplexity)	19.1	3.7× wall‑clock	+0.2 (slight improvement)

Token acceptance per iteration 从约 1 个 token（AR）提升至 ≈4.5 个 token，得益于 rejection recycling。
KV‑cache 重用贡献了约 30% 的总加速，其余来自 blockwise parallelism。
消融实验表明，progressive distillation schedule 与 rejection recycling 均为关键；去除任意一项会使加速率下降至 < 2×。

实际影响

谁受益	为什么重要	如何利用
LLM‑powered IDEs & code assistants	更快的代码建议让开发者保持思路连贯。	将标准解码器替换为 Jacobi‑forced checkpoint；无需更改现有 API。
Chatbot platforms	更低的延迟提升用户满意度并降低服务器成本。	部署 multi‑block decoding，适度增加计算预算即可实现 < 100 ms 的响应目标。
Edge or mobile inference	并行解码减少顺序 GPU kernel 的数量，节省功耗。	在移动 GPU/NPU 上使用提供的轻量 checkpoint（如 2.7B）并复用 KV‑cache。
Research labs	能快速原型化更长的提示（例如 few‑shot chain‑of‑thought）。	使用 Jacobi Forcing 配方微调基础因果模型，在保持领域知识的同时提升速度。

总体而言，该技术为任何现有的因果 transformer 堆栈提供了 drop‑in upgrade，在保持接近自回归质量的同时实现多标记吞吐，可将推理成本降低 50‑70%。

限制与未来工作

计算‑与‑延迟的权衡：拒绝回收会增加额外的前向传播；在负载较高的服务器上，额外的计算可能抵消延迟的提升，除非进行仔细的预算控制。
块大小敏感性：块过大（> 64 个 token）会开始降低质量，这表明存在一个可能因领域而异的最佳块大小。
对多模态模型的泛化：本文聚焦于仅文本的 LLM；将 Jacobi Forcing 扩展到视觉‑语言或音频模型仍是一个未解之题。
理论分析：虽然实验结果强劲，但并未提供渐进蒸馏调度的正式收敛保证。

未来方向包括基于运行时置信度的自适应块大小、与量化流水线的结合以进一步降低延迟，以及探索 Jacobi Forcing 在用于翻译或摘要的编码‑解码架构中的应用。

作者

Lanxiang Hu
Siqi Kou
Yichao Fu
Samyam Rajbhandari
Tajana Rosing
Yuxiong He
Zhijie Deng
Hao Zhang

论文信息

arXiv ID: 2512.14681v1
分类: cs.CL
出版日期: 2025年12月16日
PDF: 下载 PDF

[论文] 使用Jacobi Forcing 的快速且准确的因果并行解码

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 当推理遇到其法则

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] DEER：一个全面且可靠的深度研究专家报告基准

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别