[Paper] 影响力训练数据检索用于解释 LLM 的语言化置信度
发布: (2026年1月16日 GMT+8 02:05)
6 min read
原文: arXiv
Source: arXiv - 2601.10645v1
概述
大型语言模型(LLMs)越来越多地被要求说明它们对生成答案的置信程度,这一功能可以提升用户信任。然而,研究表明这些置信声明常常与事实正确性不匹配——模型即使错误也会显得很肯定。本文提出了TracVC,一种将模型口头表达的置信度追溯到影响它的具体训练示例的技术,阐明了为何 LLM 有时会过度自信地“说得好听”却“做不到”。
关键贡献
- TracVC 框架:结合信息检索与影响估计,将模型的置信表达映射到最具影响力的训练段落。
- 内容扎根度指标:一种新颖的评估方法,用于量化置信陈述在 内容相关 示例中的根基程度,相较于通用的“置信谈话”片段。
- 对 OLMo 和 LLaMA 的实证研究:表明一个 13 B 参数的 OLMo 模型常常依赖词汇上不相关的置信相关数据,显示出表层模仿而非真实扎根。
- 对训练动态的洞察:凸显了一个系统性问题,即当前的预训练流水线教会大语言模型 如何 显得自信,而不是 何时 需要自信。
方法论
- 数据检索:对于每个生成的答案‑置信度对,作者使用密集向量搜索(例如 FAISS)在原始预训练语料库上检索一组候选训练段落。
- 影响估计:他们应用基于梯度的影响函数(类似于 Koh & Liang, 2017)来估计每个检索到的段落对模型的置信度 token logits 的贡献程度。
- 评分可靠性:
- 内容相关的段落包含关于问题/答案的事实信息。
- 通用的段落仅是置信表达的示例(例如 “我相当确定”)。
内容可靠性得分是来自内容相关段落的总影响占比。
- 评估:在基准 QA 集上运行该流水线,比较 OLMo‑2‑13B 与 LLaMA‑2‑13B 的表现。
Results & Findings
- Low content groundness for OLMo‑2‑13B:平均而言,只有 ≈30 % 的置信陈述影响来源于内容相关的示例;其余来源于通用的置信表达。
- Higher groundness for LLaMA‑2‑13B:LLaMA 显示出更平衡的分配(约 55 % 与内容相关),表明在表达置信时更依赖事实性上下文。
- Lexical mismatch:许多对 OLMo 影响最大的段落在词汇上与查询无关,说明模型复制置信表达模式,却未在答案实质上进行扎根。
- Over‑confidence patterns:模型事实错误但仍表现出高度置信的情况,与来自通用置信数据的高影响相关。
实际意义
- 更好的 AI 助手 UI/UX:了解置信声明是否真正有依据,可决定何时向用户展示,从而降低误置信任的风险。
- 微调策略:开发者可以在训练数据中加入 配对的事实内容 + 校准的置信注释,以鼓励模型学习 何时 应保持自信。
- 监控与调试:TracVC 可集成到模型服务流水线中,标记那些置信度主要来源于通用数据的答案,触发回退机制(例如,“我不确定”)。
- 合规监管:在高风险领域(医疗、金融),展示基于内容的置信度可能成为合规要求;TracVC 提供可量化的审计追踪。
限制与未来工作
- 可扩展性:对数十亿标记进行影响估计仍然计算量大;近似方法可能会遗漏细微的影响。
- 训练数据访问:该方法假设能够获取原始的预训练语料库,而商业大模型的语料库往往是专有的。
- 度量范围:内容真实性捕捉词汇相关性,但可能忽视那些未在训练数据中直接引用的细致推理步骤。
- 未来方向:
- 开发 轻量级影响代理(例如使用注意力展开)。
- 探索 课程学习,显式教授置信度校准。
- 将 TracVC 扩展到 多模态模型 和 指令微调 变体。
Bottom line: TracVC 照亮了一个隐藏的盲点——大语言模型可以被训练得 听起来 很自信,却 缺乏依据。通过将置信度追溯到其训练根源,开发者获得了一个实用工具,以构建更可信的 AI 系统,这些系统不仅能够正确回答,还能在不确定时坦诚承认。
作者
- Yuxi Xia
- Loris Schoenegger
- Benjamin Roth
论文信息
- arXiv ID: 2601.10645v1
- 类别: cs.CL
- 出版日期: 2026年1月15日
- PDF: 下载 PDF