[Paper] 面向价值感知的数值表示用于 Transformer 语言模型

发布: (2026年1月15日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2601.09706v1

概述

Transformer 已成为语言任务的首选架构,但在要求 理解 数字时仍会出现困难——把“42”仅仅视作另一个词标记。论文 “Value‑Aware Numerical Representations for Transformer Language Models” 提出了一种简单、即插即用的修改方法,将实际的数值大小注入模型的输入中,显著提升算术和数字处理能力,而无需重新设计整个架构。

关键贡献

  • 值感知前缀标记(Value‑aware prefix token): 引入一个专用标记,放置在每个数值字面量之前,其嵌入直接根据数字的数值计算(例如,通过对浮点表示进行小型 MLP 处理)。
  • 分词器无关设计(Tokenizer‑agnostic design): 可与任何现有的子词分词器配合使用;数值标记保持不变,而前缀提供缺失的量级信息。
  • 兼容仅解码器 Transformer(Compatibility with decoder‑only Transformers): 不需要对模型的层、注意力头或训练目标进行任何修改。
  • 全面评估(Comprehensive evaluation): 在一系列算术基准(加法、减法、乘法、除法)上展示了持续的提升,覆盖十进制、科学计数法和混合格式的数字,并支持最长达 10 位的操作数长度。
  • 高效性(Efficiency): 添加的前缀仅为每个数字增加一个固定大小的嵌入,保持推理延迟和内存开销在最小水平。

方法论

  1. 检测数值 token 在预处理阶段(任何匹配整数、浮点数或科学计数法正则表达式的 token)。
  2. 生成数值嵌入:
    • 将字面量转换为浮点数值。
    • 将该数值通过轻量级前馈网络(通常是 2 层 MLP)得到密集向量。
  3. 在原始数值 token 前插入前缀 token(例如 <NUM_VAL>)。该前缀的嵌入被第 2 步计算得到的数值嵌入所替代。
  4. 将增强后的序列输入不变的 Transformer 模型。 由于数值嵌入已成为输入的一部分,自注意力层在为下游 token 计算表示时可以直接关注数值大小信息。
  5. 训练 / 微调: 作者在算术数据集上对已有的预训练模型(如 GPT‑2‑medium)进行微调,使用增强输入,使模型学习如何结合符号信息和数值感知线索。

结果与发现

任务基线 (GPT‑2‑medium)+ 值感知前缀
两位数加法71 % 正确率94 %
四位数减法48 %87 %
混合格式乘法(十进制 + 科学计数)33 %78 %
十位数加法(分布外)12 %65 %
  • 对格式的鲁棒性: 对普通整数、浮点数和科学计数法同样表现良好,表明模型学习的是 数值 概念,而非记忆 token 模式。
  • 泛化能力: 当在比微调时更长的操作数上进行测试时,提升仍然存在,说明前缀帮助模型外推算术规则。
  • 开销可忽略: 添加前缀平均只增加约 0.5 % 的 token 数量,并在 V100 GPU 上每次推理步骤额外增加 <0.2 ms。

实际意义

  • 更好的数据处理流水线: 依赖大型语言模型进行电子表格式推理、财务报告生成或科学数据摘要的应用可以采用前缀技巧,以避免明显的算术错误。
  • 即插即用升级: 由于该方法不需要架构更改,现有的生产模型只需更新预处理层即可进行改造。
  • 改进的提示工程: 开发者可以显式请求数值精度(例如 “<NUM_VAL> 3.14”)来引导模型,从而减少事后纠正脚本的需求。
  • 混合 AI 的基础: 价值感知表示将符号数值计算与神经语言理解相结合,为与外部计算器或约束求解器的更紧密集成打开了大门。

限制与未来工作

  • 范围仅限于标量数字: 当前设计不处理向量、矩阵或单位等复杂结构(例如 “5 kg”)。将前缀扩展以编码维度元数据是一个未解决的挑战。
  • 依赖微调: 在算术数据上微调后展示了提升;对开箱即用模型的零样本改进有限。
  • 潜在的扩展问题: 虽然少量数字时开销很小,但数字文字密集的文档可能会导致显著的 token 长度增加。
  • 未来方向 包括:
    1. 在多任务环境中与主模型共同学习前缀嵌入。
    2. 融入单位感知的嵌入。
    3. 探索面向其他模态(例如日期、时间戳)的值感知表示。

作者

  • Andreea Dutulescu
  • Stefan Ruseti
  • Mihai Dascalu

论文信息

  • arXiv ID: 2601.09706v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发表时间: 2026年1月14日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »