[Paper] 正确预测，错误步骤？用于稳健Chain-of-Thought合成的共识推理知识图谱

发布: 3周前 (2026年4月16日 GMT+8 01:43)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.14121v1

请提供您希望翻译的具体文本内容（除代码块和 URL 之外），我将为您翻译成简体中文并保持原有的格式和 Markdown 语法。

概述

大型语言模型（LLM）能够生成令人印象深刻的答案，但它们产生的逐步“思考链”（chain‑of‑thought，CoT）常常包含隐藏错误。论文 Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis 表明，仅仅向 LLM 提供正确的最终答案并不能修复这些推理缺陷。相反，作者提出了 CRAFT，一个框架，它从众多候选 CoT 轨迹的共识部分构建 Reasoning Knowledge Graph，随后合成出更清晰、更可靠的推理轨迹。

关键贡献

识别出两类 LLM 推理痕迹的缺陷：
1. 步骤内部缺陷（逻辑错误、步骤内部的幻觉）
2. 步骤间缺陷（跨步骤的过度或不足思考）。
实证证据表明向 LLM 提供真实答案标签并不改善 CoT 质量。
CRAFT 框架：
- 为每个查询生成多个候选 CoT 痕迹。
- 构建 推理知识图谱 (RKG)，捕获候选之间共享的公共子步骤。
- 执行 拓扑生成，将共识子步骤拼接成单一的高质量痕迹。
性能提升：在逻辑和数学基准上平均标签预测准确率提升 +10 %，超越所有强基线。
全面评估 显示痕迹连贯性、正确性提升，幻觉率降低。

方法论

样本生成 – 对于每个问题，提示 LLM 生成 N 条多样的 CoT 轨迹（例如，通过温度采样或不同提示）。
图构建 – 将每条轨迹解析为原子推理步骤（例如，“应用分配律”，“计算 7 × 8”）。节点代表步骤；有向边编码顺序。来自不同轨迹的相同或语义等价的步骤合并，形成 推理知识图。
共识提取 – 具有高 支持度（出现在许多轨迹中）的节点被视为可靠。低支持度节点被标记为潜在内部缺陷。
拓扑合成 – 从图的源节点开始，按拓扑顺序遍历图生成新轨迹，优先选择高支持度节点，同时保持逻辑依赖。
验证 – 可选地将合成的轨迹重新输入 LLM 进行最终答案检查，确保最终结果与原始预测一致。

整个流水线与模型无关，可包装在任何现有的支持 CoT 的 LLM 之上。

结果与发现

Benchmark	Baseline CoT (e.g., GPT‑4)	CRAFT‑enhanced	Relative Gain
Logical Reasoning (e.g., LSAT)	71.2 %	82.5 %	+11.3 %
Math Reasoning (e.g., GSM8K)	64.8 %	76.1 %	+11.3 %
Trace Quality (BLEU‑like metric)	0.58	0.71	+0.13

错误类型减少：内部步骤缺陷下降约 35 %；逐步缺陷（过度思考）下降约 28 %。
追踪多样性保持高水平，这意味着 CRAFT 并未将所有推理压缩为单一“模板”，而是保留了有用的备选推理路径。
在所有评估的基线（自一致性、投票多数 CoT、验证提示）中，CRAFT 始终表现更佳，表明其对提示设计和模型规模具有鲁棒性。

实际意义

更值得信赖的 AI 助手 – 开发者可以在聊天机器人或代码助手中嵌入 CRAFT，以呈现更清晰、无错误的推理，这在调试或合规性要求高的领域至关重要。
降低后处理需求 – 不再需要手动检查 CoT 日志中的幻觉，基于图的共识会自动过滤可疑步骤。
改进少样本提示 – 通过生成多个推理轨迹并进行综合，CRAFT 缓解了单一提示的脆弱性，使大型语言模型在生产流水线中更可靠（例如，自动报告生成、数据分析笔记本）。
模型无关插件 – 由于 CRAFT 作用于输出轨迹，可直接叠加在任何现有的 LLM 服务（OpenAI、Anthropic、LLaMA 等）之上，无需重新训练。
调试潜力 – 可以可视化 RKG，为工程师提供模型分歧位置的图形视图，帮助进行模型层面的诊断和数据集策划。

限制与未来工作

可扩展性 – 为非常长的推理任务（例如多页证明）构建和遍历 RKG 可能会变得计算成本高昂；需要进行优化或层次化图结构构建。
语义等价检测 – 合并步骤依赖于启发式方法（字符串相似度、简单的改写模型）。更复杂的语义解析器可以提升共识检测的效果。
对多样性的依赖 – 如果初始候选轨迹集合缺乏足够的变化，共识图可能会遗漏其他正确的推理路径。未来工作可以探索主动采样策略，以最大化有用的多样性。
人机交互评估 – 论文的指标主要是自动化的；通过用户研究评估 CRAFT 生成轨迹的可信度感知，将有助于强化其在实际部署中的主张。

CRAFT 开辟了一个有前景的方向：将大语言模型的推理视为协作式、共识构建的过程，而不是单向的独白。对于构建 AI 驱动工具的开发者而言，它提供了一套实用方案，将“答案正确但步骤错误”的情况转化为真正可靠、可解释的输出。

作者

Zipeng Ling
Shuliang Liu
Shenghong Fu
Yuehao Tang
Seonil Son
Yao Wan
Xuming Hu

论文信息

arXiv ID: 2604.14121v1
分类: cs.CL
出版日期: 2026年4月15日
PDF: 下载 PDF

[Paper] 正确预测，错误步骤？用于稳健Chain-of-Thought合成的共识推理知识图谱

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] 没有普遍礼貌：跨语言、多模型研究礼貌对 LLMs 的影响（使用 PLUM Corpus）

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估