[Paper] 类 N-gram 语言模型最能预测阅读时间

发布: 14小时前 (2026年3月11日 GMT+8 00:35)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.09872v1

概述

Michaelov 和 Levy 的论文探讨了为何最强大的现代语言模型——尤其是基于 transformer 的模型——在预测人们阅读每个词的时间时有时会 表现不佳。他们的关键洞见是 阅读时间更多受到简单 n‑gram 统计（即在给定直接上下文时词的概率） 的驱动，而不是由最先进的 transformer 捕获的更丰富、长程依赖所决定。通过将模型预测与眼动追踪数据关联，他们展示了那些输出最接近经典 n‑gram 概率的模型，也最能预测人类的阅读行为。

关键贡献

经验性证据表明，类似 n‑gram 的概率估计与眼动追踪阅读时间测量的相关性强于大型 Transformer 语言模型的原始概率。
相关性分析将神经语言模型的预测与 n‑gram 概率的吻合程度与其在阅读时间预测上的表现联系起来。
统一解释了认知建模中“更大不一定更好”的悖论：过度参数化的模型捕获了对瞬时处理速度无关甚至有害的语言规律。
开源代码和数据集（眼动追踪语料库和模型输出），以促进复制和进一步研究。

方法论

Models Tested – 对一系列神经语言模型进行测试，这些模型包括从小型前馈网络和循环网络到大型预训练变换器（例如 GPT‑2、基于 BERT 的掩码语言模型）。
Baseline n‑gram – 使用 Kneser‑Ney 平滑的标准 5‑gram 模型，在与神经语言模型相同的语料库上进行训练。
Eye‑tracking Data – 自然阅读语料库（例如 Dundee、Provo），提供数百名参与者的词级别凝视时长。
Probability Extraction – 对测试文本中的每个词，记录模型的下一个词概率（或掩码词概率）。
Correlation Analyses
- Model ↔ n‑gram: 计算每个神经语言模型的概率分布与相应 n‑gram 概率之间的 Pearson / Spearman 相关系数。
- Model ↔ reading time: 将模型导出的 surprisal（−log p）与观测到的凝视时长进行相关性分析。
- Mediation: 检验模型 ↔ n‑gram 相关性是否在模型 ↔ 阅读时长关系中起中介作用。

所有步骤均使用 Python 实现，神经语言模型采用 PyTorch，n‑gram 使用 kenlm 库。

结果与发现

模型类型	与 n‑gram 的相关性 (r)	与阅读时间的相关性 (r)
Small RNN	0.68	0.45 (最高)
GPT‑2 (small)	0.82	0.31
GPT‑2 (large)	0.88	0.27
BERT‑masked	0.79	0.33

n‑gram 对齐度越高 → 阅读时间预测越好。 惊讶度值与 5‑gram 基准最相似的模型显示出与凝视时长最强的相关性。
更大的 Transformer 收获递减。 随着模型规模和训练数据的增加，与 n‑gram 统计的相关性上升，但与阅读时间的相关性趋于平台期甚至下降。
中介分析 证实，n‑gram 相似性解释了模型间阅读时间预测方差的显著部分（约 60 %）。

Practical Implications

Cognitive‑aware NLP tools: 在构建需要模拟人类阅读的应用时（例如可读性评分、适应性文本简化或基于眼动追踪的 UI 反馈），简单的 n‑gram 惊讶度可能比原始的 transformer 概率更可靠。
Model selection for psycholinguistic tasks: 研究人员和开发者应考虑 轻量级 n‑gram 或混合模型，而不是默认使用最大的 transformer，这样既能节省计算和存储，又能提升预测效度。
Explainability & debugging: “过拟合 长程模式会损害阅读时间预测”的发现提供了一种诊断方法：将模型输出与 n‑gram 基线进行比较，以判断其是否捕获了无关的高阶统计信息。
Real‑time applications: 由于 n‑gram 模型的查询速度快了数量级，它们能够实现 低延迟、设备端 的阅读难度估计，适用于电子阅读器、教育软件或辅助技术。

限制与未来工作

Domain restriction: 领域限制： 实验仅限于英文新闻和叙事文本；在技术或高度口语化领域的表现仍未知。
Eye‑tracking granularity: 眼动追踪粒度： 仅检查了凝视时长；其他指标如回视率或瞳孔扩张可能揭示更多细微差别。
Model diversity: 模型多样性： 本研究聚焦于下一个词预测模型；未来工作可探索编码器‑解码器架构和多模态语言模型。
Hybrid approaches: 混合方法： 作者建议研究结合 n‑gram 与 transformer 概率的 interpolated models（插值模型），可能兼顾两者优势。

总体而言，本文挑战了“更大总是更好”在认知建模中的假设，并提供了一个具体、对开发者友好的结论：有时最简单的统计模型最符合人类行为。

作者

James A. Michaelov
Roger P. Levy

论文信息

arXiv ID: 2603.09872v1
分类: cs.CL
发表时间: 2026年3月10日
PDF: 下载 PDF

[Paper] 类 N-gram 语言模型最能预测阅读时间

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 说谎前先思考：推理如何提升诚实

[Paper] 大语言模型时代的模型合并：方法、应用与未来方向

[Paper] 思考以召回：推理如何解锁 LLM 中的参数化知识

[Paper] MSSR：记忆感知自适应回放用于持续 LLM 微调