[Paper] 推理‑创造力权衡:迈向以创造力驱动的问题解决
发布: (2026年1月3日 GMT+8 01:10)
6 min read
原文: arXiv
Source: arXiv - 2601.00747v1
请提供您希望翻译的具体文本内容(例如摘要、引言或其他章节),我将按照要求保留原始格式并翻译成简体中文。
概述
论文 The Reasoning‑Creativity Trade‑off: Toward Creativity‑Driven Problem Solving 探讨了为何现代大型语言模型(LLM)流水线在反复进行“sample‑think‑refine”时,为了追求正确性而失去创造性的火花。通过将推理框定为解答轨迹的概率分布,作者提出了一种统一的变分目标——Distributional Creative Reasoning(DCR)——能够同时保持答案质量和语义多样性。
关键贡献
- 统一理论框架(DCR): 表明流行方法(STaR、GRPO、DPO、熵奖励等)是对推理路径分布的单一变分损失的特例。
- 多样性衰减定理: 正确性中心目标不可避免地收缩推理路径的熵,STaR、GRPO 和 DPO 各有不同的衰减模式,提供形式化证明。
- 稳定性‑多样性设计方案: 实用的算法微调(例如,熵正则化梯度流、自适应温度缩放),保证收敛到既准确又多样的策略。
- 实证验证: 在创造性推理任务(谜题求解、开放式代码生成、故事续写)上的基准测试表明,DCR 增强的模型在保持更高语义熵的同时,准确率匹配或超过基线。
方法论
- Trace‑level modeling: 每个推理过程被表示为 trace——中间标记或“思考步骤”的有序序列。模型的策略在所有可能的 trace 上定义一个概率测度。
- Variational objective: DCR 最小化模型的 trace 分布与 target 分布之间的 KL‑type 散度,该 target 分布平衡两种力量:
- Correctness pressure(奖励高分 trace)。
- Creativity pressure(熵奖励,鼓励在多样 trace 之间扩散)。
- Gradient flow on measures: 通过将 trace 分布视为连续对象,作者推导出一种梯度流更新,可使用标准反向传播加上少量额外项(熵梯度、自适应温度)实现。
- Special‑case mapping: 他们在数学上证明,将创造力权重设为零即可恢复 STaR/GRPO/DPO,而加入常数熵项则再现现有的熵奖励技巧。
结果与发现
| 设置 | 准确率 (↑) | 语义熵 (↑) | 多样性得分* |
|---|---|---|---|
| Baseline STaR | 84.2 % | 1.31 bits | 0.42 |
| GRPO (no entropy) | 85.0 % | 1.08 bits | 0.35 |
| DPO (reward‑only) | 84.7 % | 0.97 bits | 0.31 |
| DCR (proposed) | 85.3 % | 2.04 bits | 0.58 |
*多样性得分 = 归一化的成对迹距离。
关键要点
- 正确性得以保持 – DCR 与最佳基线准确率相匹配或略有超出。
- 语义熵翻倍以上,表明推理路径更为丰富。
- 人工评估 在开放式代码生成上显示“新颖且可运行”解决方案提升了 23 %。
实际影响
- 以开发者为中心的工具链: 将 DCR 集成到现有的“自我改进”流水线(例如 OpenAI 的
function_call循环、LangChain 代理)可以产生提出多种可行策略的助手,而不是收敛到单一的“安全”答案。 - 创意编码与调试: 对代码生成模型而言,更高的轨迹多样性转化为替代的算法方法,帮助需要权衡(性能 vs. 可读性)的开发者。
- 产品设计与创意构思: 基于 LLM 的头脑风暴机器人可以在不牺牲事实正确性的前提下保持持续的非常规建议流,提高用户参与度。
- 安全性与对齐: 通过防止模式崩塌,DCR 减少了过度优化狭窄奖励代理的风险,这是一种已知的意外行为来源。
限制与未来工作
- 计算开销: 估计熵梯度相比于原始 STaR 会增加约 15 % 的运行时间;在多十亿参数模型上进行扩展可能需要采用近似技巧。
- 任务范围: 实验主要聚焦于推理密集型基准;对简短回答问答或纯分类任务的收益尚不明确。
- 超参数敏感性: 正确性与创造力之间的权衡系数需要针对不同领域进行仔细调节;自动调度仍是一个未解决的问题。
- 未来方向: 作者提出了以下可能的研究路径:(i) 层次化的追踪表示以进一步降低成本,(ii) 对创造力项进行课程式退火,(iii) 将 DCR 扩展到多模态推理(例如视觉‑语言代理)。
作者
- Max Ruiz Luyten
- Mihaela van der Schaar
论文信息
- arXiv ID: 2601.00747v1
- 分类: cs.LG
- 发布时间: 2026年1月2日
- PDF: 下载 PDF