[论文] VecCISC:提升基于置信度的自一致性——推理轨迹聚类与候选答案选择
发布: (2026年5月9日 GMT+8 01:54)
6 分钟阅读
原文: arXiv
Source: arXiv - 2605.08070v1
概述
本文介绍了 VecCISC,这是一种针对 Confidence‑Informed Self‑Consistency (CISC) 技术的巧妙快捷方式,能够在大型语言模型(LLMs)需要对多个可能答案进行推理时发挥作用。通过在将推理轨迹发送给二次 “critic” 模型之前剪枝冗余或低质量的推理轨迹,VecCISC 将推理成本削减近一半,同时在各种困难基准上保持——甚至提升——准确性。
关键贡献
- 自适应轨迹过滤: 使用基于向量的语义相似度来检测并丢弃重复、退化或幻觉的推理轨迹。
- 轻量级集成: 作为现有 CISC 流水线的即插即用预处理器,无需更改底层 LLM 或评审模型。
- 广泛评估: 在五个多样化数据集(数学、化学、生物、常识、人文)上进行测试,显示出最高 47 % token‑usage reduction,且准确率与或优于原始 CISC。
- 开源实现: 作者发布了代码和提示,使开发者能够轻松将 VecCISC 插入自己的推理流水线。
方法论
- Generate candidate answers – 基础 LLM 被提示生成 N 个答案候选,每个候选都附带一步一步的推理轨迹。
- Embed traces – 使用预训练的嵌入模型(例如 Sentence‑Transformers)将每个推理轨迹转换为稠密向量。
- Cluster by similarity – 使用简单的相似度阈值(余弦相似度 > τ)对向量进行分组。落入同一簇的轨迹被视为语义等价。
- Filter candidates – 对每个簇,仅保留 representative 轨迹(内部置信度最高或长度最短的那个),其余的被丢弃。
- Critic scoring – 将剩余的过滤后轨迹输入批评者 LLM,后者为每个答案返回置信分数。
- Weighted voting – 使用批评者提供的分数,通过 CISC 的加权多数投票选择答案。
因为批评者仅在原始候选的子集上被调用,整体 token 数量——从而延迟和成本——显著下降。
结果与发现
| 数据集(领域) | CISC 准确率 | VecCISC 准确率 | 令牌节省率 |
|---|---|---|---|
| GSM‑8K (Math) | 78.2 % | 79.1 % | 46 % |
| ChemQA (Chem) | 71.5 % | 71.5 % | 48 % |
| BioReason (Bio) | 66.3 % | 66.8 % | 45 % |
| CommonsenseQA | 84.0 % | 84.2 % | 47 % |
| HumanitiesQA | 73.9 % | 74.5 % | 47 % |
- 准确率: VecCISC 在每个基准上都与普通 CISC 相匹配或略有超越。
- 效率: 通过将批评者调用次数大约减半,总令牌消耗下降约 ≈47 %,从而实现相应的成本节约。
- 鲁棒性: 基于相似度的过滤器可靠地去除幻觉或无意义的痕迹,而不会丢失有用的多样性。
实际影响
- Cost‑effective scaling: Companies deploying LLM‑based assistants can now run CISC‑style reasoning at near‑CISC quality while paying almost half the inference bill.
- Lower latency: Fewer critic calls mean faster response times—critical for real‑time chatbots, code‑assist tools, or decision‑support systems.
- Plug‑and‑play: Since VecCISC sits between the generator and the critic, existing pipelines (e.g., OpenAI’s
gpt‑4with a separate evaluation model) can adopt it with minimal engineering effort. - Improved reliability: By automatically filtering out degenerate traces, developers get cleaner logs and fewer “nonsense” explanations, simplifying downstream debugging and audit trails.
- Generalizable to other LLM frameworks: The vector‑clustering idea works with any embedding model, making it compatible with open‑source LLM stacks (LLaMA, Mistral, etc.) as well as commercial APIs.
限制与未来工作
- 相似度阈值调优: τ 超参数需要针对数据集进行特定校准;阈值过于激进可能会丢弃实际上不同但正确的推理路径。
- 嵌入模型依赖性: 轨迹聚类的质量取决于所选的嵌入模型;嵌入质量差可能导致轨迹误分类。
- 聚类的可扩展性: 虽然对实验中使用的适度 N(≈10‑20)候选项来说成本低廉,但极大的候选集合可能需要更复杂的聚类算法。
- 未来方向: 作者建议探索动态阈值、层次聚类,并将不确定性估计直接整合到嵌入阶段,以进一步减少 critic 调用而不牺牲多样性。
VecCISC 表明,适度的语义感知剪枝可以让复杂的自一致性推理既更便宜又更快——这对任何希望从大型语言模型中榨取更多价值的开发者来说都是一个有吸引力的提议。
作者
- James Petullo
- Sonny George
- Dylan Cashman
- Nianwen Xue
论文信息
- arXiv ID: 2605.08070v1
- 分类: cs.AI
- 出版日期: 2026年5月8日
- PDF: 下载 PDF