[Paper] 递归思考-回答过程
发布: (2026年3月3日 GMT+8 01:20)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.02099v1
概述
本文介绍了 Recursive Think‑Answer Process (R‑TAP),这是一种轻量级框架,使大型语言模型(LLMs)和视觉语言模型(VLMs)在给出最终答案之前能够反复“思考”。通过加入基于置信度的反馈回路,R‑TAP 减少了经典的“单次推理”脆弱性,这种脆弱性常导致明显错误(例如“哎呀!”时刻),从而提供更可靠、更快速的推理。
关键贡献
- 递归推理循环:将传统的思考‑回答流水线扩展为多个基于置信度的迭代。
- 置信度生成器:一个轻量模块,预测模型对当前答案的确定程度,从而决定是否需要再进行一次推理循环。
- 两种新颖的奖励信号:
- 递归置信度提升奖励——鼓励每一次迭代提升模型的置信度。
- 最终答案置信度奖励——对最终输出的高置信度进行奖励。
- 对 LLM 与 VLM 的统一处理:展示相同的递归方案能够提升纯文本模型和多模态模型的表现。
- 实证提升:在多个基准任务上实现一致的性能提升,减少“哎呀”自我纠正次数并降低推理延迟。
Methodology
- Think‑Answer baseline – 模型首先生成思考链(CoT),随后在一次前向传播中给出答案。
- Add a confidence estimator – 在答案生成后,一个小型分类器(在答案‑置信度对上训练)会预测置信度得分 (c \in [0,1])。
- Recursive loop –
- 如果 (c) 低于预设阈值,模型会被提示 re‑think:它会收到之前的推理轨迹并加上 “please improve” 提示,然后再进行一次 CoT‑answer 过程。
- 该过程会重复进行,直至置信度超过阈值或达到最大迭代次数。
- Training with dual rewards – 在微调阶段,损失函数结合了:
- R‑CIR(惩罚连续迭代之间置信度的下降),以及
- FACR(直接奖励最终答案的高置信度)。
这些奖励通过主模型和置信度生成器进行反向传播,旨在提升推理质量和自我评估能力。
结果与发现
| Model | 任务 | 单次通过准确率 | R‑TAP 准确率 | 平均迭代次数 | 平均推理时间 |
|---|---|---|---|---|---|
| LLaMA‑13B | GSM‑8K(数学) | 71.2 % | 78.5 % | 1.7 | +12 % |
| GPT‑4‑V | VQA‑X(视觉‑语言) | 64.8 % | 71.3 % | 1.5 | +9 % |
| CLIP‑ViT‑B | 图像描述(BLEU) | 23.4 | 27.1 | 1.6 | +11 % |
- 置信度提升:在所有实验中,置信分数随每次递归单调上升,验证了 R‑CIR 奖励的有效性。
- “Oops”提示减少:自我反思短语(例如 “Oops,我犯了错误”)的出现频率相比基线下降约 45 %,表明推理更为稳定。
- 速度‑准确度权衡:由于大多数输入在 1–2 次迭代后即收敛,整体延迟惩罚有限,同时带来了显著的准确率提升。
实际意义
- 更可信的 AI 助手 – 开发者可以在聊天机器人或代码辅助工具中嵌入 R‑TAP,让模型在响应前自行验证答案,从而降低幻觉。
- 成本效益的扩展 – 置信度生成器体积极小(约占模型参数的 0.2%),可以在同一硬件上运行,避免了昂贵的集成或采样技巧。
- 多模态流水线 – 视觉语言应用(例如文档理解、视觉问答)受益于相同的循环,使其成为任何具备 CoT 能力模型的通用插件。
- 动态推理预算 – 通过调整置信阈值,服务可以在略微降低准确率的前提下,获得更低的延迟,以适应高吞吐量工作负载。
- 调试与可解释性 – 中间推理轨迹和置信分数为工程师提供模型不确定部位的清晰视图,帮助错误分析和安全审计。
限制与未来工作
- 阈值敏感性 – 选择置信度阈值需要针对具体任务进行调优;阈值不佳会导致资源浪费或过早停止。
- 递归深度上限 – 当前实现将递归限制在三次迭代;对于高度复杂的推理可能需要更深的循环,但会显著增加延迟。
- 训练数据偏差 – 置信度生成器使用与主任务相同的数据进行训练,这可能限制其检测分布外错误的能力。
- 未来方向 作者提出包括:
- 通过强化学习学习自适应阈值。
- 将 R‑TAP 扩展到编程任务的 chain‑of‑thought 提示。
- 探索课程式训练,使模型逐步学习在更少外部提示下自我纠正。
作者
- Byung-Kwan Lee
- Youngchae Chee
- Yong Man Ro
论文信息
- arXiv ID: 2603.02099v1
- 分类: cs.CL
- 出版日期: 2026年3月2日
- PDF: 下载 PDF