[论文] LLMs 对数字的了解超出它们能表达的程度
发布: (2026年2月8日 GMT+8 12:15)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.07812v1
概述
最近的研究表明,大型语言模型(LLM)通常在内部 know 数字的数量级,即使它们在处理诸如“哪个更大, 5.7 × 10² 还是 580?”这类简单比较问题时会出错。通过探测多个开源 LLM 的隐藏状态,作者展示了单一线性读出层能够以惊人低的误差恢复数字的对数数量级。这种隐藏知识与模型口头答案之间的差距指向了提升 LLM 数值推理能力的新前沿。
关键贡献
- 隐藏状态探针:对单个隐藏层的线性投影能够可靠地编码数值大小的对数(在合成数据上相对误差约为 2.3 %,在科学文本上约为 19 %)。
- 排序信号:在处理一对数字后,模型的隐藏状态包含足够的信息,使线性分类器能够以 > 90 % 的准确率预测哪个更大。
- 性能悖论:当要求模型口头表达比较时,同样的模型仅能达到 50–70 % 的准确率,揭示了内部表征与输出生成之间的脱节。
- 带辅助损失的微调:在微调期间将分类器的对数损失作为辅助目标加入,可使口头表达的排序准确率比基线模型额外提升 3.22 %。
- 开源聚焦:实验在多个较小的公开可用 LLM 上进行,使社区能够复现这些发现。
方法论
-
数据集构建
- 合成:随机生成的数字对,使用混合表示法(十进制、科学计数法、分数等)。
- 真实世界:从科学论文中提取的数字对,保留了符号的自然分布。
-
探测隐藏状态
- 对于每个模型,作者找到了一个中间的 Transformer 层,其激活与当前 token 的对数幅度呈最强线性相关。
- 训练了一个简单的线性回归(单个权重向量 + 偏置),将这些激活映射到真实的对数值。
-
排序分类器
- 模型读取两个数字后,将最终隐藏状态输入线性二分类器,预测“第一个 > 第二个”。
- 在留出的数字对上测量准确率。
-
口头答案评估
- 同样的模型会收到自然语言的比较问题,其文本答案被解析以提取所选的较大数字。
-
辅助损失微调
- 在进一步训练时,将分类器的交叉熵损失加入标准语言模型损失,促使模型将内部的幅度信号与输出生成对齐。
所有实验均在开源模型上进行(例如 LLaMA 派生变体),以保持工作透明且可扩展。
结果与发现
| 指标 | 合成文本 | 科学论文 |
|---|---|---|
| 对数幅度重建误差 | 2.3 %(相对) | 19.06 % |
| 排序分类器准确率 | > 90 % | > 90 % |
| 口头比较准确率(基础模型) | 50–70 % | 50–70 % |
| 辅助损失微调后的口头准确率 | 比基础模型提升 +3.22 % | 比基础模型提升 +3.22 % |
关键要点
- 隐藏层已经包含了稳健的数值幅度表示,即使是混合记号。
- 模型能够在内部比较数字,可靠性很高,但这种知识很少在生成的文本中显现。
- 在训练期间鼓励模型暴露其内部排序信号,可在最终答案质量上获得可衡量的提升。
实际意义
- 更好的数值推理 API:开发者可以在现有 LLM 上附加轻量线性探针,以获得准确的量级估计,而无需完整微调,从而在下游应用(例如数据验证、电子表格助手)中实现快速的“数值感知”检查。
- 改进的提示策略:知道模型在内部保留量级信息表明,强制模型“逐步思考”的提示技术(例如 chain‑of‑thought)可能有助于显现隐藏的知识。
- 微调方案:添加一个简单的辅助损失来奖励正确的内部排序可以纳入任何微调流水线,为特定领域的 LLM(金融、科学文献、工程)提供低成本提升数值可靠性的方式。
- 调试工具包:探针可以作为模型可解释性的诊断手段——如果模型的隐藏状态未能编码量级,这可能解释其算术性能差,并指导模型选择。
总体而言,这项工作提出了一个实用的方案:探针 → 对齐 → 曝露,将潜在的数值能力转化为可信、用户可见的行为。
限制与未来工作
- 数字范围:本研究聚焦于数量比较;其他数值运算(加法、减法、单位转换)尚未测试。
- 模型规模:实验仅限于较小的开源模型;尚不清楚这些发现是否能推广到最大的商业大型语言模型(LLM)。
- 领域偏差:在科学论文上出现更高的重建误差,表明噪声大、上下文丰富的文本可能会降低探针的忠实度。
- 辅助损失的影响:虽然辅助损失提升了口头化准确率,但提升幅度有限(≈ 3 %)。未来工作可以探索更丰富的多任务目标或课程学习,以更紧密地将内部表征与输出生成耦合。
通过将探测扩展到更广泛的数值任务和更大的模型,社区可以进一步缩小大型语言模型 知道 的内容与它们 说 出来的内容之间的差距。
作者
- Fengting Yuchi
- Li Du
- Jason Eisner
论文信息
- arXiv ID: 2602.07812v1
- 类别: cs.CL
- 发表时间: 2026年2月8日
- PDF: 下载 PDF