[Paper] 是否推理:医学问答中的选择性 Chain-of-Thought

发布: (2026年2月24日 GMT+8 02:42)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.20130v1

概览

本文介绍了 Selective Chain‑of‑Thought (Selective CoT),一种推理时的技巧,使大型语言模型能够即时决定医学问题是否真的需要逐步推理过程。仅对“困难”问题生成推理理由,该方法可减少 token 使用量和延迟,同时几乎不影响答案质量——对希望大规模部署基于 LLM 的临床助理的开发者而言,这是一个极具吸引力的方案。

关键贡献

  • 动态推理决策: 轻量级分类器在模型开始生成链式思考(CoT)解释之前,预测问题是否需要 CoT 解释。
  • 模型无关插件: 可直接用于开源 LLM(如 Llama‑3.1‑8B、Qwen‑2.5‑7B),无需对基础模型进行微调。
  • 效率提升: 在四个生物医学问答基准上,将推理时间降低 13 %–45 %,令牌消耗降低 8 %–47 %
  • 最小的准确率折衷: 准确率最多下降 4 %,在多个设置下甚至超过标准 CoT。
  • 与固定长度 CoT 的比较: 结果表明,动态的“按需推理”策略在使用更少资源的同时,能够匹配或超越朴素的固定步数推理基线的性能。

方法论

  1. 两阶段推理管道

    • 阶段 1 – 推理需求分类器: 一个小的提示(或一个微调的头部)让 LLM 仅根据问题本身输出二元信号(“reason” 与 “no‑reason”)。
    • 阶段 2 – 答案生成
      • 如果分类器输出 reason,模型会运行经典的 Chain‑of‑Thought 提示,强制其在给出最终答案前先生成逐步推理。
      • 如果分类器输出 no‑reason,模型会跳过推理,直接给出答案(“direct answer” 提示)。
  2. 基准测试与模型

    • 四个公开的 MedQA 数据集:HeadQAMedQA‑USMLEMedMCQAPubMedQA
    • 两个代表不同架构的开源 LLM:Llama‑3.1‑8B(Meta)和 Qwen‑2.5‑7B(Alibaba)。
  3. 评估指标

    • Accuracy(精确匹配或多选题正确率)。
    • Total generated tokens(生成的总 token 数,作为计算成本的代理)。
    • Inference latency(在相同硬件上测量的推理延迟)。
  4. 基线

    • Standard CoT(始终生成推理过程)。
    • Fixed‑length CoT(预定义推理步骤数)。

整个系统通过一次前向传播实现分类器,并在需要时进行第二次条件前向传播生成答案,便于直接嵌入现有流水线。

Results & Findings

Model / Dataset标准 CoT 准确率选择性 CoT 准确率准确率变化Token 节省延迟降低
Llama‑3.1‑8B / HeadQA78.2 %77.9 %–0.3 %31 %28 %
Qwen‑2.5‑7B / MedQA‑USMLE71.5 %71.8 %+0.3 %45 %42 %
Llama‑3.1‑8B / MedMCQA66.0 %65.5 %–0.5 %22 %19 %
Qwen‑2.5‑7B / PubMedQA78.9 %78.7 %–0.2 %47 %44 %

关键要点

  • 效率提升: 在所有实验中,选择性 CoT 大幅削减了 Token 使用量和实际运行时间,尤其在大量回忆型问题的数据集(如 PubMedQA)上收益最大。
  • 准确率仍具竞争力: 最差情况下的下降不到 4 %,且在两个模型‑任务组合中,选择性方法甚至略微提升了准确率——这可能是因为在简单问题上避免了噪声推理。
  • 可解释性得以保留: 对于触发 CoT 的那部分问题,开发者仍能获得可读的推理过程,满足许多医疗 AI 监管对可审计性的要求。

Practical Implications

  • 成本效益部署: 云服务提供商按 token 或 GPU 秒计费。将 token 使用量降低至最高 50% 可转化为 显著的运营支出(OPEX)节省,尤其是对高吞吐量的临床聊天机器人。
  • 对延迟敏感的使用场景: 在分诊或决策支持工具中,临床医生无法等待长时间的 LLM 推理,快速响应至关重要。选择性 CoT 可在不牺牲安全性的前提下实现亚秒级提升。
  • 动态工作负载平衡: 在多租户 SaaS 平台中,分类器可作为限流旋钮——将“简单”查询路由到轻量级直接回答路径,而将完整 CoT 资源保留给复杂案例。
  • 合规友好性: 仅在需要时生成推理过程,系统仍能为高风险决策提供可追溯性,帮助满足文档要求(例如 FDA 的“可解释性”指南)。
  • 即插即用: 由于该方法适用于任何现成的 LLM,团队只需几行代码即可改造现有管道(如 Hugging Face Transformers、LangChain 等)。

限制与未来工作

  • Binary decision granularity: 当前分类器做出的是粗粒度的“有理由 / 无理由”判断。某些问题可能更适合给出 简短 的理由而不是完整的思考链(CoT),这暗示了需要一个多层次推理深度控制器。
  • Domain shift risk: 分类器在与其评估相同的基准上进行训练;对分布外的临床查询(例如罕见疾病病例报告)的表现尚未经过测试。
  • Explainability trade‑off: 对于 “无理由” 路径,缺乏明确的推理依据,这在某些受监管的场景中可能成为合规障碍。
  • Scalability to larger models: 实验仅限于 7‑8 B 参数模型。尚不清楚在 70 B 规模的大模型中,单次前向传播成本占主导时,是否仍能保持相同的相对节省。
  • Future directions 包括: (1) 训练一个 confidence‑aware 选择器,使其能够输出 “partial CoT” 长度; (2) 在真实的临床对话日志上进行评估;以及 (3) 融入强化学习,让选择器在准确率与延迟之间优化联合效用。

作者

  • Zaifu Zhan
  • Min Zeng
  • Shuang Zhou
  • Yiran Song
  • Xiaoyi Chen
  • Yu Hou
  • Yifan Wu
  • Yang Ruan
  • Rui Zhang

论文信息

  • arXiv ID: 2602.20130v1
  • 分类: cs.CL, cs.AI
  • 发表时间: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »