[Paper] 类 N-gram 语言模型最能预测阅读时间
发布: (2026年3月11日 GMT+8 00:35)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.09872v1
概述
Michaelov 和 Levy 的论文探讨了为何最强大的现代语言模型——尤其是基于 transformer 的模型——在预测人们阅读每个词的时间时有时会 表现不佳。他们的关键洞见是 阅读时间更多受到简单 n‑gram 统计(即在给定直接上下文时词的概率) 的驱动,而不是由最先进的 transformer 捕获的更丰富、长程依赖所决定。通过将模型预测与眼动追踪数据关联,他们展示了那些输出最接近经典 n‑gram 概率的模型,也最能预测人类的阅读行为。
关键贡献
- 经验性证据表明,类似 n‑gram 的概率估计与眼动追踪阅读时间测量的相关性强于大型 Transformer 语言模型的原始概率。
- 相关性分析将神经语言模型的预测与 n‑gram 概率的吻合程度与其在阅读时间预测上的表现联系起来。
- 统一解释了认知建模中“更大不一定更好”的悖论:过度参数化的模型捕获了对瞬时处理速度无关甚至有害的语言规律。
- 开源代码和数据集(眼动追踪语料库和模型输出),以促进复制和进一步研究。
方法论
- Models Tested – 对一系列神经语言模型进行测试,这些模型包括从小型前馈网络和循环网络到大型预训练变换器(例如 GPT‑2、基于 BERT 的掩码语言模型)。
- Baseline n‑gram – 使用 Kneser‑Ney 平滑的标准 5‑gram 模型,在与神经语言模型相同的语料库上进行训练。
- Eye‑tracking Data – 自然阅读语料库(例如 Dundee、Provo),提供数百名参与者的词级别凝视时长。
- Probability Extraction – 对测试文本中的每个词,记录模型的下一个词概率(或掩码词概率)。
- Correlation Analyses
- Model ↔ n‑gram: 计算每个神经语言模型的概率分布与相应 n‑gram 概率之间的 Pearson / Spearman 相关系数。
- Model ↔ reading time: 将模型导出的 surprisal(−log p)与观测到的凝视时长进行相关性分析。
- Mediation: 检验模型 ↔ n‑gram 相关性是否在模型 ↔ 阅读时长关系中起中介作用。
所有步骤均使用 Python 实现,神经语言模型采用 PyTorch,n‑gram 使用 kenlm 库。
结果与发现
| 模型类型 | 与 n‑gram 的相关性 (r) | 与阅读时间的相关性 (r) |
|---|---|---|
| Small RNN | 0.68 | 0.45 (最高) |
| GPT‑2 (small) | 0.82 | 0.31 |
| GPT‑2 (large) | 0.88 | 0.27 |
| BERT‑masked | 0.79 | 0.33 |
- n‑gram 对齐度越高 → 阅读时间预测越好。 惊讶度值与 5‑gram 基准最相似的模型显示出与凝视时长最强的相关性。
- 更大的 Transformer 收获递减。 随着模型规模和训练数据的增加,与 n‑gram 统计的相关性上升,但与阅读时间的相关性趋于平台期甚至下降。
- 中介分析 证实,n‑gram 相似性解释了模型间阅读时间预测方差的显著部分(约 60 %)。
Practical Implications
- Cognitive‑aware NLP tools: 在构建需要模拟人类阅读的应用时(例如可读性评分、适应性文本简化或基于眼动追踪的 UI 反馈),简单的 n‑gram 惊讶度可能比原始的 transformer 概率更可靠。
- Model selection for psycholinguistic tasks: 研究人员和开发者应考虑 轻量级 n‑gram 或混合模型,而不是默认使用最大的 transformer,这样既能节省计算和存储,又能提升预测效度。
- Explainability & debugging: “过拟合 长程模式会损害阅读时间预测”的发现提供了一种诊断方法:将模型输出与 n‑gram 基线进行比较,以判断其是否捕获了无关的高阶统计信息。
- Real‑time applications: 由于 n‑gram 模型的查询速度快了数量级,它们能够实现 低延迟、设备端 的阅读难度估计,适用于电子阅读器、教育软件或辅助技术。
限制与未来工作
- Domain restriction: 领域限制: 实验仅限于英文新闻和叙事文本;在技术或高度口语化领域的表现仍未知。
- Eye‑tracking granularity: 眼动追踪粒度: 仅检查了凝视时长;其他指标如回视率或瞳孔扩张可能揭示更多细微差别。
- Model diversity: 模型多样性: 本研究聚焦于下一个词预测模型;未来工作可探索编码器‑解码器架构和多模态语言模型。
- Hybrid approaches: 混合方法: 作者建议研究结合 n‑gram 与 transformer 概率的 interpolated models(插值模型),可能兼顾两者优势。
总体而言,本文挑战了“更大总是更好”在认知建模中的假设,并提供了一个具体、对开发者友好的结论:有时最简单的统计模型最符合人类行为。
作者
- James A. Michaelov
- Roger P. Levy
论文信息
- arXiv ID: 2603.09872v1
- 分类: cs.CL
- 发表时间: 2026年3月10日
- PDF: 下载 PDF