[Paper] 面向价值感知的数值表示用于 Transformer 语言模型

发布: 3周前 (2026年1月15日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.09706v1

概述

Transformer 已成为语言任务的首选架构，但在要求理解数字时仍会出现困难——把“42”仅仅视作另一个词标记。论文 “Value‑Aware Numerical Representations for Transformer Language Models” 提出了一种简单、即插即用的修改方法，将实际的数值大小注入模型的输入中，显著提升算术和数字处理能力，而无需重新设计整个架构。

关键贡献

值感知前缀标记（Value‑aware prefix token）： 引入一个专用标记，放置在每个数值字面量之前，其嵌入直接根据数字的数值计算（例如，通过对浮点表示进行小型 MLP 处理）。
分词器无关设计（Tokenizer‑agnostic design）： 可与任何现有的子词分词器配合使用；数值标记保持不变，而前缀提供缺失的量级信息。
兼容仅解码器 Transformer（Compatibility with decoder‑only Transformers）： 不需要对模型的层、注意力头或训练目标进行任何修改。
全面评估（Comprehensive evaluation）： 在一系列算术基准（加法、减法、乘法、除法）上展示了持续的提升，覆盖十进制、科学计数法和混合格式的数字，并支持最长达 10 位的操作数长度。
高效性（Efficiency）： 添加的前缀仅为每个数字增加一个固定大小的嵌入，保持推理延迟和内存开销在最小水平。

方法论

检测数值 token 在预处理阶段（任何匹配整数、浮点数或科学计数法正则表达式的 token）。
生成数值嵌入：
- 将字面量转换为浮点数值。
- 将该数值通过轻量级前馈网络（通常是 2 层 MLP）得到密集向量。
在原始数值 token 前插入前缀 token（例如 <NUM_VAL>）。该前缀的嵌入被第 2 步计算得到的数值嵌入所替代。
将增强后的序列输入不变的 Transformer 模型。 由于数值嵌入已成为输入的一部分，自注意力层在为下游 token 计算表示时可以直接关注数值大小信息。
训练 / 微调： 作者在算术数据集上对已有的预训练模型（如 GPT‑2‑medium）进行微调，使用增强输入，使模型学习如何结合符号信息和数值感知线索。

结果与发现

任务	基线 (GPT‑2‑medium)	+ 值感知前缀
两位数加法	71 % 正确率	94 %
四位数减法	48 %	87 %
混合格式乘法（十进制 + 科学计数）	33 %	78 %
十位数加法（分布外）	12 %	65 %

对格式的鲁棒性： 对普通整数、浮点数和科学计数法同样表现良好，表明模型学习的是数值概念，而非记忆 token 模式。
泛化能力： 当在比微调时更长的操作数上进行测试时，提升仍然存在，说明前缀帮助模型外推算术规则。
开销可忽略： 添加前缀平均只增加约 0.5 % 的 token 数量，并在 V100 GPU 上每次推理步骤额外增加 <0.2 ms。

实际意义

更好的数据处理流水线： 依赖大型语言模型进行电子表格式推理、财务报告生成或科学数据摘要的应用可以采用前缀技巧，以避免明显的算术错误。
即插即用升级： 由于该方法不需要架构更改，现有的生产模型只需更新预处理层即可进行改造。
改进的提示工程： 开发者可以显式请求数值精度（例如 “<NUM_VAL> 3.14”）来引导模型，从而减少事后纠正脚本的需求。
混合 AI 的基础： 价值感知表示将符号数值计算与神经语言理解相结合，为与外部计算器或约束求解器的更紧密集成打开了大门。

限制与未来工作

范围仅限于标量数字： 当前设计不处理向量、矩阵或单位等复杂结构（例如 “5 kg”）。将前缀扩展以编码维度元数据是一个未解决的挑战。
依赖微调： 在算术数据上微调后展示了提升；对开箱即用模型的零样本改进有限。
潜在的扩展问题： 虽然少量数字时开销很小，但数字文字密集的文档可能会导致显著的 token 长度增加。
未来方向 包括：
1. 在多任务环境中与主模型共同学习前缀嵌入。
2. 融入单位感知的嵌入。
3. 探索面向其他模态（例如日期、时间戳）的值感知表示。

作者

Andreea Dutulescu
Stefan Ruseti
Mihai Dascalu

论文信息

arXiv ID: 2601.09706v1
分类: cs.CL, cs.AI, cs.LG
发表时间: 2026年1月14日
PDF: Download PDF

[Paper] 面向价值感知的数值表示用于 Transformer 语言模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力