[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

发布: (2025年12月12日 GMT+8 23:15)
7 min read
原文: arXiv

Source: arXiv - 2512.11635v1

Overview

本文提出了一种利用 BERTopic(基于 transformer 嵌入的神经主题模型)从大规模历史报纸集合中挖掘主题的新方法。通过对超过六十年关于核能与安全的文章进行分析,作者展示了现代 NLP 如何揭示公共话语的兴起、衰退与转变——这是传统模型如 LDA 难以实现的。

Key Contributions

  • 面向档案的神经主题建模 – 首次在噪声较大的 OCR 生成的报纸文本(1955‑2018)上进行大规模 BERTopic 应用。
  • 时间主题追踪 – 引入了一套可视化管道,展示特定主题(如核武器与民用核能)随时间的演变。
  • 抗噪声预处理 – 展示了减轻 OCR 错误、保持 transformer 嵌入语义质量的实用步骤。
  • 对比评估 – 将 BERTopic 与 LDA 及其他基线模型进行基准测试,突出其在历史数据上的更高一致性和可解释性。
  • 开源工具箱 – 发布完整的预处理、建模与可视化代码,便于在其他档案领域复现。

Methodology

  1. 数据收集与清洗 – 作者抓取数字化报纸文章,进行语言检测,剔除模板内容,并使用拼写纠正启发式方法降低 OCR 伪影。
  2. 嵌入生成 – 使用预训练的多语言 transformer(如 sentence‑bert)对每篇文章进行编码,将原始文本转化为捕捉上下文的稠密向量,即使输入噪声较大亦能保持语义。
  3. 降维 – 采用 Uniform Manifold Approximation and Projection (UMAP) 将高维嵌入压缩,同时保留局部主题结构。
  4. 聚类 – 使用 HDBSCAN 将降维后的向量划分为密集簇;每个簇对应一个候选“主题”。
  5. 主题表示 – 对每个簇使用基于类别的 TF‑IDF(c‑TF‑IDF)提取最具代表性的词汇,生成可读的标签。
  6. 时间分析 – 为文章打上时间戳;按年份汇总主题出现频率,绘制趋势线和热力图,展示话语的变化。
  7. 基线比较 – 在同一语料上并行运行 LDA,提供主题一致性(通过 UMass 与 CV 分数)和可解释性的参考。

Results & Findings

  • 更高的一致性 – BERTopic 的 CV 一致性得分为 0.48,而 LDA 为 0.31,表明前者的主题在语义上更为一致。
  • 动态主题发现 – 早期(1950‑60 年代)主要主题为“核武器试验”和“冷战恐惧”,而 1970‑80 年代出现“核安全法规”和“能源危机”。
  • 共现洞察 – 模型揭示了核能与核武器讨论交叉的时期(如切尔诺贝利事故后),暗示公众焦虑将民用与军用核问题联系在一起。
  • 可扩展性 – 处理约 120 万篇文章耗时约 12 小时(单 GPU),展示了在全国性档案上的可行性。
  • 定性验证 – 历史学家审阅前 10 大主题后确认,这些提取的主题与已知历史叙事相符,甚至发现了一些不太为人知的子主题(如“核废料运输路线”)。

Practical Implications

  • 数字人文工作流 – 研究者可直接使用已发布的 BERTopic 工作流探索其他档案语料(如立法记录、社交媒体历史),无需深度机器学习背景。
  • 媒体监测与风险分析 – 关注受监管技术(核能、AI、生物技术)长期情感的企业,可利用时间主题追踪预测政策变化或公众反弹。
  • 检索与发现工具 – 新闻聚合平台可将神经主题加入索引,使用户能够按演变的主题而非静态关键词浏览档案。
  • 政策制定支持 – 政府可快速呈现当前辩论的历史先例(如公众对核电站提案的反应),为利益相关者互动策略提供依据。
  • 改进 OCR 流程 – 论文中的噪声降低技巧(字符级语言模型、拼写纠正)可嵌入任何数字化工作流,以提升下游 NLP 性能。

Limitations & Future Work

  • OCR 依赖 – 尽管进行了预处理,残留的 OCR 错误仍会影响嵌入质量,尤其是对年代久远、分辨率低的扫描件。
  • Transformer 偏差 – 预训练语言模型未在历史语言上进行微调,可能对古老词汇的表示不足。
  • 粒度权衡 – HDBSCAN 的密度聚类可能将低频但不同的主题合并,导致细分叙事被隐藏。
  • 未来方向 – 作者建议在特定时期语料上微调 transformer,融合多模态数据(照片、广告),并探索层次化主题模型以捕获子主题结构。

Authors

  • Keerthana Murugaraj
  • Salima Lamsiyah
  • Marten During
  • Martin Theobald

Paper Information

  • arXiv ID: 2512.11635v1
  • Categories: cs.CL, cs.AI, cs.IR
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »