[Paper] 类 N-gram 语言模型最能预测阅读时间

发布: (2026年3月11日 GMT+8 00:35)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.09872v1

概述

Michaelov 和 Levy 的论文探讨了为何最强大的现代语言模型——尤其是基于 transformer 的模型——在预测人们阅读每个词的时间时有时会 表现不佳。他们的关键洞见是 阅读时间更多受到简单 n‑gram 统计(即在给定直接上下文时词的概率) 的驱动,而不是由最先进的 transformer 捕获的更丰富、长程依赖所决定。通过将模型预测与眼动追踪数据关联,他们展示了那些输出最接近经典 n‑gram 概率的模型,也最能预测人类的阅读行为。

关键贡献

  • 经验性证据表明,类似 n‑gram 的概率估计与眼动追踪阅读时间测量的相关性强于大型 Transformer 语言模型的原始概率。
  • 相关性分析将神经语言模型的预测与 n‑gram 概率的吻合程度与其在阅读时间预测上的表现联系起来。
  • 统一解释了认知建模中“更大不一定更好”的悖论:过度参数化的模型捕获了对瞬时处理速度无关甚至有害的语言规律。
  • 开源代码和数据集(眼动追踪语料库和模型输出),以促进复制和进一步研究。

方法论

  1. Models Tested – 对一系列神经语言模型进行测试,这些模型包括从小型前馈网络和循环网络到大型预训练变换器(例如 GPT‑2、基于 BERT 的掩码语言模型)。
  2. Baseline n‑gram – 使用 Kneser‑Ney 平滑的标准 5‑gram 模型,在与神经语言模型相同的语料库上进行训练。
  3. Eye‑tracking Data – 自然阅读语料库(例如 Dundee、Provo),提供数百名参与者的词级别凝视时长。
  4. Probability Extraction – 对测试文本中的每个词,记录模型的下一个词概率(或掩码词概率)。
  5. Correlation Analyses
    • Model ↔ n‑gram: 计算每个神经语言模型的概率分布与相应 n‑gram 概率之间的 Pearson / Spearman 相关系数。
    • Model ↔ reading time: 将模型导出的 surprisal(−log p)与观测到的凝视时长进行相关性分析。
    • Mediation: 检验模型 ↔ n‑gram 相关性是否在模型 ↔ 阅读时长关系中起中介作用。

所有步骤均使用 Python 实现,神经语言模型采用 PyTorch,n‑gram 使用 kenlm 库。

结果与发现

模型类型与 n‑gram 的相关性 (r)与阅读时间的相关性 (r)
Small RNN0.680.45 (最高)
GPT‑2 (small)0.820.31
GPT‑2 (large)0.880.27
BERT‑masked0.790.33
  • n‑gram 对齐度越高 → 阅读时间预测越好。 惊讶度值与 5‑gram 基准最相似的模型显示出与凝视时长最强的相关性。
  • 更大的 Transformer 收获递减。 随着模型规模和训练数据的增加,与 n‑gram 统计的相关性上升,但与阅读时间的相关性趋于平台期甚至下降。
  • 中介分析 证实,n‑gram 相似性解释了模型间阅读时间预测方差的显著部分(约 60 %)。

Practical Implications

  • Cognitive‑aware NLP tools: 在构建需要模拟人类阅读的应用时(例如可读性评分、适应性文本简化或基于眼动追踪的 UI 反馈),简单的 n‑gram 惊讶度可能比原始的 transformer 概率更可靠。
  • Model selection for psycholinguistic tasks: 研究人员和开发者应考虑 轻量级 n‑gram 或混合模型,而不是默认使用最大的 transformer,这样既能节省计算和存储,又能提升预测效度。
  • Explainability & debugging:过拟合 长程模式会损害阅读时间预测”的发现提供了一种诊断方法:将模型输出与 n‑gram 基线进行比较,以判断其是否捕获了无关的高阶统计信息。
  • Real‑time applications: 由于 n‑gram 模型的查询速度快了数量级,它们能够实现 低延迟、设备端 的阅读难度估计,适用于电子阅读器、教育软件或辅助技术。

限制与未来工作

  • Domain restriction: 领域限制: 实验仅限于英文新闻和叙事文本;在技术或高度口语化领域的表现仍未知。
  • Eye‑tracking granularity: 眼动追踪粒度: 仅检查了凝视时长;其他指标如回视率或瞳孔扩张可能揭示更多细微差别。
  • Model diversity: 模型多样性: 本研究聚焦于下一个词预测模型;未来工作可探索编码器‑解码器架构和多模态语言模型。
  • Hybrid approaches: 混合方法: 作者建议研究结合 n‑gram 与 transformer 概率的 interpolated models(插值模型),可能兼顾两者优势。

总体而言,本文挑战了“更大总是更好”在认知建模中的假设,并提供了一个具体、对开发者友好的结论:有时最简单的统计模型最符合人类行为。

作者

  • James A. Michaelov
  • Roger P. Levy

论文信息

  • arXiv ID: 2603.09872v1
  • 分类: cs.CL
  • 发表时间: 2026年3月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »