[Paper] 正确预测,错误步骤?用于稳健Chain-of-Thought合成的共识推理知识图谱

发布: (2026年4月16日 GMT+8 01:43)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.14121v1

请提供您希望翻译的具体文本内容(除代码块和 URL 之外),我将为您翻译成简体中文并保持原有的格式和 Markdown 语法。

概述

大型语言模型(LLM)能够生成令人印象深刻的答案,但它们产生的逐步“思考链”(chain‑of‑thought,CoT)常常包含隐藏错误。论文 Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis 表明,仅仅向 LLM 提供正确的最终答案并不能修复这些推理缺陷。相反,作者提出了 CRAFT,一个框架,它从众多候选 CoT 轨迹的共识部分构建 Reasoning Knowledge Graph,随后合成出更清晰、更可靠的推理轨迹。

关键贡献

  • 识别出两类 LLM 推理痕迹的缺陷
    1. 步骤内部缺陷(逻辑错误、步骤内部的幻觉)
    2. 步骤间缺陷(跨步骤的过度或不足思考)。
  • 实证证据表明向 LLM 提供真实答案标签 并不 改善 CoT 质量。
  • CRAFT 框架
    • 为每个查询生成多个候选 CoT 痕迹。
    • 构建 推理知识图谱 (RKG),捕获候选之间共享的公共子步骤。
    • 执行 拓扑生成,将共识子步骤拼接成单一的高质量痕迹。
  • 性能提升:在逻辑和数学基准上平均标签预测准确率提升 +10 %,超越所有强基线。
  • 全面评估 显示痕迹连贯性、正确性提升,幻觉率降低。

方法论

  1. 样本生成 – 对于每个问题,提示 LLM 生成 N 条多样的 CoT 轨迹(例如,通过温度采样或不同提示)。
  2. 图构建 – 将每条轨迹解析为原子推理步骤(例如,“应用分配律”,“计算 7 × 8”)。节点代表步骤;有向边编码顺序。来自不同轨迹的相同或语义等价的步骤合并,形成 推理知识图
  3. 共识提取 – 具有高 支持度(出现在许多轨迹中)的节点被视为可靠。低支持度节点被标记为潜在内部缺陷。
  4. 拓扑合成 – 从图的源节点开始,按拓扑顺序遍历图生成新轨迹,优先选择高支持度节点,同时保持逻辑依赖。
  5. 验证 – 可选地将合成的轨迹重新输入 LLM 进行最终答案检查,确保最终结果与原始预测一致。

整个流水线与模型无关,可包装在任何现有的支持 CoT 的 LLM 之上。

结果与发现

BenchmarkBaseline CoT (e.g., GPT‑4)CRAFT‑enhancedRelative Gain
Logical Reasoning (e.g., LSAT)71.2 %82.5 %+11.3 %
Math Reasoning (e.g., GSM8K)64.8 %76.1 %+11.3 %
Trace Quality (BLEU‑like metric)0.580.71+0.13
  • 错误类型减少:内部步骤缺陷下降约 35 %;逐步缺陷(过度思考)下降约 28 %。
  • 追踪多样性保持高水平,这意味着 CRAFT 并未将所有推理压缩为单一“模板”,而是保留了有用的备选推理路径。
  • 所有 评估的基线(自一致性、投票多数 CoT、验证提示)中,CRAFT 始终表现更佳,表明其对提示设计和模型规模具有鲁棒性。

实际意义

  • 更值得信赖的 AI 助手 – 开发者可以在聊天机器人或代码助手中嵌入 CRAFT,以呈现更清晰、无错误的推理,这在调试或合规性要求高的领域至关重要。
  • 降低后处理需求 – 不再需要手动检查 CoT 日志中的幻觉,基于图的共识会自动过滤可疑步骤。
  • 改进少样本提示 – 通过生成多个推理轨迹并进行综合,CRAFT 缓解了单一提示的脆弱性,使大型语言模型在生产流水线中更可靠(例如,自动报告生成、数据分析笔记本)。
  • 模型无关插件 – 由于 CRAFT 作用于输出轨迹,可直接叠加在任何现有的 LLM 服务(OpenAI、Anthropic、LLaMA 等)之上,无需重新训练。
  • 调试潜力 – 可以可视化 RKG,为工程师提供模型分歧位置的图形视图,帮助进行模型层面的诊断和数据集策划。

限制与未来工作

  • 可扩展性 – 为非常长的推理任务(例如多页证明)构建和遍历 RKG 可能会变得计算成本高昂;需要进行优化或层次化图结构构建。
  • 语义等价检测 – 合并步骤依赖于启发式方法(字符串相似度、简单的改写模型)。更复杂的语义解析器可以提升共识检测的效果。
  • 对多样性的依赖 – 如果初始候选轨迹集合缺乏足够的变化,共识图可能会遗漏其他正确的推理路径。未来工作可以探索主动采样策略,以最大化有用的多样性。
  • 人机交互评估 – 论文的指标主要是自动化的;通过用户研究评估 CRAFT 生成轨迹的可信度感知,将有助于强化其在实际部署中的主张。

CRAFT 开辟了一个有前景的方向:将大语言模型的推理视为协作式、共识构建的过程,而不是单向的独白。对于构建 AI 驱动工具的开发者而言,它提供了一套实用方案,将“答案正确但步骤错误”的情况转化为真正可靠、可解释的输出。

作者

  • Zipeng Ling
  • Shuliang Liu
  • Shenghong Fu
  • Yuehao Tang
  • Seonil Son
  • Yao Wan
  • Xuming Hu

论文信息

  • arXiv ID: 2604.14121v1
  • 分类: cs.CL
  • 出版日期: 2026年4月15日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »