[Paper] 长链式思考压缩 via 细粒度 Group Policy Optimization
发布: (2026年2月11日 GMT+8 02:15)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.10048v1
概述
大型语言模型(LLM)已经擅长于“Chain‑of‑Thought”(CoT)提示,即模型在给出答案之前先逐步阐述推理过程。虽然这通常能提升在困难问题上的准确率,但生成的推理往往过于冗长,导致推理延迟和基于 token 的成本上升。本文提出 Fine‑grained Group policy Optimization(FGO)——一种强化学习(RL)技术,能够在不牺牲性能的前提下裁剪 CoT 序列,使基于 LLM 的推理更适合投入生产。
关键贡献
- FGO 算法:在 Group Relative Policy Optimization(GRPO)的基础上扩展,基于 token 长度和输出熵进行细粒度加权,实现对 CoT 步骤的选择性压缩。
- 熵感知加权:防止 GRPO 中的“熵塌陷”问题,确保模型保留多样且信息丰富的推理路径。
- 提升数据效率:更有效地复用中间组响应,减少所需的 RL 训练数据量。
- 实证验证:在数学密集型基准(MATH500、AIME24、AMC23、Minerva)上展示,压缩后的 CoT 在保持几乎相同准确率的同时,令 token 使用量降低最高达 35 %。
- 开源实现:提供代码和预训练策略检查点,便于与现有 LLM 流水线集成。
方法论
- Group Formation – 在推理过程中,模型的 CoT 被划分为 组(例如,每个逻辑子步骤)。
- Fine‑grained Subdivision – 每个组进一步细分为更小的片段。算法会评估每个片段的 length(更短的片段成本更低)和 entropy(更高的熵表示内容更具信息量)。
- Weight Assignment – 为片段分配权重,以平衡简洁性和信息量。高熵、短小的片段会获得更高的优先级。
- Policy Optimization – 通过 RL,策略学习选择能够最大化 accuracy(正确的最终答案)和 efficiency(降低 token 数量)奖励的最优加权片段组合。
- Training Loop – 该过程在一批推理示例上迭代,使用 Fine‑grained Group Policy Optimization 目标更新策略,该目标是 GRPO 的精细化版本,显式惩罚熵塌陷并鼓励更好地复用过去的组数据。
整体流水线可以以最小的工程开销嵌入任何已有的支持 CoT 的 LLM 服务中。
结果与发现
| 基准 | 基线 CoT(标记) | FGO‑压缩 CoT(标记) | 准确率 Δ |
|---|---|---|---|
| MATH500 | 1.42 M | 0.93 M (−34 %) | –0.2 % |
| AIME24 | 0.78 M | 0.52 M (−33 %) | –0.1 % |
| AMC23 | 0.64 M | 0.44 M (−31 %) | 0.0 % |
| Minerva | 1.10 M | 0.71 M (−35 %) | –0.3 % |
- 标记节省:在所有数据集上,FGO 将生成的标记数量减少约三分之一。
- 性能保持:准确率下降幅度极小(≤ 0.3 %),证明压缩后的推理仍保留了关键的逻辑内容。
- 稳定性:训练曲线显示,FGO 的收敛速度快于 GRPO,并且避免了之前导致策略退化的剧烈熵下降。
实际影响
- 降低推理成本 – 对于按 token 收费的 SaaS 提供商(例如 OpenAI、Anthropic),30 % 的降低直接转化为更便宜的 API 使用,尤其是对教学机器人或自动定理证明等重推理工作负载。
- 降低延迟 – 更短的 CoT(思考链)意味着模型解码器中的往返次数更少,缩短响应时间——对实时助手和交互式编码工具有利。
- 可扩展的推理服务 – 企业可以在相同的硬件预算下服务更多并发用户,使基于 LLM 的问题求解在大规模场景下可行。
- 更易集成 – 因为 FGO 作为后处理策略运行在任何基础 LLM 之上,开发者可以在不重新训练整个模型的情况下改造现有流水线(例如 LangChain、LlamaIndex)。
- 其他领域的潜力 – 同样的细粒度加权思路可以压缩代码生成、数据到文本或法律文书撰写等需要简洁输出的场景。
限制与未来工作
- 领域特定性 – 实验聚焦于数学推理;在叙事或开放式任务上的有效性尚未测试。
- 强化学习开销 – 虽然推理成本更低,但强化学习微调步骤会产生一次性的计算成本,对非常大的模型而言可能并非微不足道。
- 启发式加权 – 当前的长度‑熵权衡是手工设计的;学习更自适应的加权方案可能进一步提升压缩效果。
- 用户控制 – 未来工作可以提供“压缩预算”API,让开发者指定目标 token 数量或延迟约束。
作者建议将 FGO 扩展到多模态推理(例如视觉‑语言链),并探索课程式训练,使策略逐步学习压缩日益复杂的思考链(CoT)。
作者
- Xinchen Han
- Hossam Afifi
- Michel Marot
- Xilu Wang
- Lu Yin
论文信息
- arXiv ID: 2602.10048v1
- Categories: cs.LG, cs.AI
- Published: 2026年2月10日
- PDF: 下载 PDF