[Paper] 长链式思考压缩 via 细粒度 Group Policy Optimization

发布: 2天前 (2026年2月11日 GMT+8 02:15)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10048v1

概述

大型语言模型（LLM）已经擅长于“Chain‑of‑Thought”（CoT）提示，即模型在给出答案之前先逐步阐述推理过程。虽然这通常能提升在困难问题上的准确率，但生成的推理往往过于冗长，导致推理延迟和基于 token 的成本上升。本文提出 Fine‑grained Group policy Optimization（FGO）——一种强化学习（RL）技术，能够在不牺牲性能的前提下裁剪 CoT 序列，使基于 LLM 的推理更适合投入生产。

关键贡献

FGO 算法：在 Group Relative Policy Optimization（GRPO）的基础上扩展，基于 token 长度和输出熵进行细粒度加权，实现对 CoT 步骤的选择性压缩。
熵感知加权：防止 GRPO 中的“熵塌陷”问题，确保模型保留多样且信息丰富的推理路径。
提升数据效率：更有效地复用中间组响应，减少所需的 RL 训练数据量。
实证验证：在数学密集型基准（MATH500、AIME24、AMC23、Minerva）上展示，压缩后的 CoT 在保持几乎相同准确率的同时，令 token 使用量降低最高达 35 %。
开源实现：提供代码和预训练策略检查点，便于与现有 LLM 流水线集成。

方法论

Group Formation – 在推理过程中，模型的 CoT 被划分为组（例如，每个逻辑子步骤）。
Fine‑grained Subdivision – 每个组进一步细分为更小的片段。算法会评估每个片段的 length（更短的片段成本更低）和 entropy（更高的熵表示内容更具信息量）。
Weight Assignment – 为片段分配权重，以平衡简洁性和信息量。高熵、短小的片段会获得更高的优先级。
Policy Optimization – 通过 RL，策略学习选择能够最大化 accuracy（正确的最终答案）和 efficiency（降低 token 数量）奖励的最优加权片段组合。
Training Loop – 该过程在一批推理示例上迭代，使用 Fine‑grained Group Policy Optimization 目标更新策略，该目标是 GRPO 的精细化版本，显式惩罚熵塌陷并鼓励更好地复用过去的组数据。

整体流水线可以以最小的工程开销嵌入任何已有的支持 CoT 的 LLM 服务中。

结果与发现

基准	基线 CoT（标记）	FGO‑压缩 CoT（标记）	准确率 Δ
MATH500	1.42 M	0.93 M (−34 %)	–0.2 %
AIME24	0.78 M	0.52 M (−33 %)	–0.1 %
AMC23	0.64 M	0.44 M (−31 %)	0.0 %
Minerva	1.10 M	0.71 M (−35 %)	–0.3 %

标记节省：在所有数据集上，FGO 将生成的标记数量减少约三分之一。
性能保持：准确率下降幅度极小（≤ 0.3 %），证明压缩后的推理仍保留了关键的逻辑内容。
稳定性：训练曲线显示，FGO 的收敛速度快于 GRPO，并且避免了之前导致策略退化的剧烈熵下降。

实际影响

降低推理成本 – 对于按 token 收费的 SaaS 提供商（例如 OpenAI、Anthropic），30 % 的降低直接转化为更便宜的 API 使用，尤其是对教学机器人或自动定理证明等重推理工作负载。
降低延迟 – 更短的 CoT（思考链）意味着模型解码器中的往返次数更少，缩短响应时间——对实时助手和交互式编码工具有利。
可扩展的推理服务 – 企业可以在相同的硬件预算下服务更多并发用户，使基于 LLM 的问题求解在大规模场景下可行。
更易集成 – 因为 FGO 作为后处理策略运行在任何基础 LLM 之上，开发者可以在不重新训练整个模型的情况下改造现有流水线（例如 LangChain、LlamaIndex）。
其他领域的潜力 – 同样的细粒度加权思路可以压缩代码生成、数据到文本或法律文书撰写等需要简洁输出的场景。

限制与未来工作

领域特定性 – 实验聚焦于数学推理；在叙事或开放式任务上的有效性尚未测试。
强化学习开销 – 虽然推理成本更低，但强化学习微调步骤会产生一次性的计算成本，对非常大的模型而言可能并非微不足道。
启发式加权 – 当前的长度‑熵权衡是手工设计的；学习更自适应的加权方案可能进一步提升压缩效果。
用户控制 – 未来工作可以提供“压缩预算”API，让开发者指定目标 token 数量或延迟约束。

作者建议将 FGO 扩展到多模态推理（例如视觉‑语言链），并探索课程式训练，使策略逐步学习压缩日益复杂的思考链（CoT）。

作者

Xinchen Han
Hossam Afifi
Michel Marot
Xilu Wang
Lu Yin

论文信息

arXiv ID: 2602.10048v1
Categories: cs.LG, cs.AI
Published: 2026年2月10日
PDF: 下载 PDF

[Paper] 长链式思考压缩 via 细粒度 Group Policy Optimization

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用