[Paper] 是否推理：医学问答中的选择性 Chain-of-Thought

发布: 3天前 (2026年2月24日 GMT+8 02:42)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.20130v1

概览

本文介绍了 Selective Chain‑of‑Thought (Selective CoT)，一种推理时的技巧，使大型语言模型能够即时决定医学问题是否真的需要逐步推理过程。仅对“困难”问题生成推理理由，该方法可减少 token 使用量和延迟，同时几乎不影响答案质量——对希望大规模部署基于 LLM 的临床助理的开发者而言，这是一个极具吸引力的方案。

关键贡献

动态推理决策： 轻量级分类器在模型开始生成链式思考（CoT）解释之前，预测问题是否需要 CoT 解释。
模型无关插件： 可直接用于开源 LLM（如 Llama‑3.1‑8B、Qwen‑2.5‑7B），无需对基础模型进行微调。
效率提升： 在四个生物医学问答基准上，将推理时间降低 13 %–45 %，令牌消耗降低 8 %–47 %。
最小的准确率折衷： 准确率最多下降 4 %，在多个设置下甚至超过标准 CoT。
与固定长度 CoT 的比较： 结果表明，动态的“按需推理”策略在使用更少资源的同时，能够匹配或超越朴素的固定步数推理基线的性能。

方法论

两阶段推理管道
- 阶段 1 – 推理需求分类器： 一个小的提示（或一个微调的头部）让 LLM 仅根据问题本身输出二元信号（“reason” 与 “no‑reason”）。
- 阶段 2 – 答案生成
  - 如果分类器输出 reason，模型会运行经典的 Chain‑of‑Thought 提示，强制其在给出最终答案前先生成逐步推理。
  - 如果分类器输出 no‑reason，模型会跳过推理，直接给出答案（“direct answer” 提示）。
基准测试与模型
- 四个公开的 MedQA 数据集：HeadQA、MedQA‑USMLE、MedMCQA 和 PubMedQA。
- 两个代表不同架构的开源 LLM：Llama‑3.1‑8B（Meta）和 Qwen‑2.5‑7B（Alibaba）。
评估指标
- Accuracy（精确匹配或多选题正确率）。
- Total generated tokens（生成的总 token 数，作为计算成本的代理）。
- Inference latency（在相同硬件上测量的推理延迟）。
基线
- Standard CoT（始终生成推理过程）。
- Fixed‑length CoT（预定义推理步骤数）。

整个系统通过一次前向传播实现分类器，并在需要时进行第二次条件前向传播生成答案，便于直接嵌入现有流水线。

Results & Findings

Model / Dataset	标准 CoT 准确率	选择性 CoT 准确率	准确率变化	Token 节省	延迟降低
Llama‑3.1‑8B / HeadQA	78.2 %	77.9 %	–0.3 %	31 %	28 %
Qwen‑2.5‑7B / MedQA‑USMLE	71.5 %	71.8 %	+0.3 %	45 %	42 %
Llama‑3.1‑8B / MedMCQA	66.0 %	65.5 %	–0.5 %	22 %	19 %
Qwen‑2.5‑7B / PubMedQA	78.9 %	78.7 %	–0.2 %	47 %	44 %

关键要点

效率提升: 在所有实验中，选择性 CoT 大幅削减了 Token 使用量和实际运行时间，尤其在大量回忆型问题的数据集（如 PubMedQA）上收益最大。
准确率仍具竞争力: 最差情况下的下降不到 4 %，且在两个模型‑任务组合中，选择性方法甚至略微提升了准确率——这可能是因为在简单问题上避免了噪声推理。
可解释性得以保留: 对于触发 CoT 的那部分问题，开发者仍能获得可读的推理过程，满足许多医疗 AI 监管对可审计性的要求。

Practical Implications

成本效益部署： 云服务提供商按 token 或 GPU 秒计费。将 token 使用量降低至最高 50% 可转化为 显著的运营支出（OPEX）节省，尤其是对高吞吐量的临床聊天机器人。
对延迟敏感的使用场景： 在分诊或决策支持工具中，临床医生无法等待长时间的 LLM 推理，快速响应至关重要。选择性 CoT 可在不牺牲安全性的前提下实现亚秒级提升。
动态工作负载平衡： 在多租户 SaaS 平台中，分类器可作为限流旋钮——将“简单”查询路由到轻量级直接回答路径，而将完整 CoT 资源保留给复杂案例。
合规友好性： 仅在需要时生成推理过程，系统仍能为高风险决策提供可追溯性，帮助满足文档要求（例如 FDA 的“可解释性”指南）。
即插即用： 由于该方法适用于任何现成的 LLM，团队只需几行代码即可改造现有管道（如 Hugging Face Transformers、LangChain 等）。

限制与未来工作

Binary decision granularity: 当前分类器做出的是粗粒度的“有理由 / 无理由”判断。某些问题可能更适合给出简短的理由而不是完整的思考链（CoT），这暗示了需要一个多层次推理深度控制器。
Domain shift risk: 分类器在与其评估相同的基准上进行训练；对分布外的临床查询（例如罕见疾病病例报告）的表现尚未经过测试。
Explainability trade‑off: 对于 “无理由” 路径，缺乏明确的推理依据，这在某些受监管的场景中可能成为合规障碍。
Scalability to larger models: 实验仅限于 7‑8 B 参数模型。尚不清楚在 70 B 规模的大模型中，单次前向传播成本占主导时，是否仍能保持相同的相对节省。
Future directions 包括： (1) 训练一个 confidence‑aware 选择器，使其能够输出 “partial CoT” 长度； (2) 在真实的临床对话日志上进行评估；以及 (3) 融入强化学习，让选择器在准确率与延迟之间优化联合效用。

作者

Zaifu Zhan
Min Zeng
Shuang Zhou
Yiran Song
Xiaoyi Chen
Yu Hou
Yifan Wu
Yang Ruan
Rui Zhang

论文信息

arXiv ID: 2602.20130v1
分类: cs.CL, cs.AI
发表时间: 2026年2月23日
PDF: 下载 PDF

[Paper] 是否推理：医学问答中的选择性 Chain-of-Thought

概览

关键贡献

方法论

Results & Findings

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

[Paper] 当 AI 写作时，谁的声音仍在？量化大型语言模型中对 World English Varieties 的文化标记抹除

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉