[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取
发布: (2025年12月12日 GMT+8 23:15)
7 min read
原文: arXiv
Source: arXiv - 2512.11635v1
Overview
本文提出了一种利用 BERTopic(基于 transformer 嵌入的神经主题模型)从大规模历史报纸集合中挖掘主题的新方法。通过对超过六十年关于核能与安全的文章进行分析,作者展示了现代 NLP 如何揭示公共话语的兴起、衰退与转变——这是传统模型如 LDA 难以实现的。
Key Contributions
- 面向档案的神经主题建模 – 首次在噪声较大的 OCR 生成的报纸文本(1955‑2018)上进行大规模 BERTopic 应用。
- 时间主题追踪 – 引入了一套可视化管道,展示特定主题(如核武器与民用核能)随时间的演变。
- 抗噪声预处理 – 展示了减轻 OCR 错误、保持 transformer 嵌入语义质量的实用步骤。
- 对比评估 – 将 BERTopic 与 LDA 及其他基线模型进行基准测试,突出其在历史数据上的更高一致性和可解释性。
- 开源工具箱 – 发布完整的预处理、建模与可视化代码,便于在其他档案领域复现。
Methodology
- 数据收集与清洗 – 作者抓取数字化报纸文章,进行语言检测,剔除模板内容,并使用拼写纠正启发式方法降低 OCR 伪影。
- 嵌入生成 – 使用预训练的多语言 transformer(如
sentence‑bert)对每篇文章进行编码,将原始文本转化为捕捉上下文的稠密向量,即使输入噪声较大亦能保持语义。 - 降维 – 采用 Uniform Manifold Approximation and Projection (UMAP) 将高维嵌入压缩,同时保留局部主题结构。
- 聚类 – 使用 HDBSCAN 将降维后的向量划分为密集簇;每个簇对应一个候选“主题”。
- 主题表示 – 对每个簇使用基于类别的 TF‑IDF(c‑TF‑IDF)提取最具代表性的词汇,生成可读的标签。
- 时间分析 – 为文章打上时间戳;按年份汇总主题出现频率,绘制趋势线和热力图,展示话语的变化。
- 基线比较 – 在同一语料上并行运行 LDA,提供主题一致性(通过 UMass 与 CV 分数)和可解释性的参考。
Results & Findings
- 更高的一致性 – BERTopic 的 CV 一致性得分为 0.48,而 LDA 为 0.31,表明前者的主题在语义上更为一致。
- 动态主题发现 – 早期(1950‑60 年代)主要主题为“核武器试验”和“冷战恐惧”,而 1970‑80 年代出现“核安全法规”和“能源危机”。
- 共现洞察 – 模型揭示了核能与核武器讨论交叉的时期(如切尔诺贝利事故后),暗示公众焦虑将民用与军用核问题联系在一起。
- 可扩展性 – 处理约 120 万篇文章耗时约 12 小时(单 GPU),展示了在全国性档案上的可行性。
- 定性验证 – 历史学家审阅前 10 大主题后确认,这些提取的主题与已知历史叙事相符,甚至发现了一些不太为人知的子主题(如“核废料运输路线”)。
Practical Implications
- 数字人文工作流 – 研究者可直接使用已发布的 BERTopic 工作流探索其他档案语料(如立法记录、社交媒体历史),无需深度机器学习背景。
- 媒体监测与风险分析 – 关注受监管技术(核能、AI、生物技术)长期情感的企业,可利用时间主题追踪预测政策变化或公众反弹。
- 检索与发现工具 – 新闻聚合平台可将神经主题加入索引,使用户能够按演变的主题而非静态关键词浏览档案。
- 政策制定支持 – 政府可快速呈现当前辩论的历史先例(如公众对核电站提案的反应),为利益相关者互动策略提供依据。
- 改进 OCR 流程 – 论文中的噪声降低技巧(字符级语言模型、拼写纠正)可嵌入任何数字化工作流,以提升下游 NLP 性能。
Limitations & Future Work
- OCR 依赖 – 尽管进行了预处理,残留的 OCR 错误仍会影响嵌入质量,尤其是对年代久远、分辨率低的扫描件。
- Transformer 偏差 – 预训练语言模型未在历史语言上进行微调,可能对古老词汇的表示不足。
- 粒度权衡 – HDBSCAN 的密度聚类可能将低频但不同的主题合并,导致细分叙事被隐藏。
- 未来方向 – 作者建议在特定时期语料上微调 transformer,融合多模态数据(照片、广告),并探索层次化主题模型以捕获子主题结构。
Authors
- Keerthana Murugaraj
- Salima Lamsiyah
- Marten During
- Martin Theobald
Paper Information
- arXiv ID: 2512.11635v1
- Categories: cs.CL, cs.AI, cs.IR
- Published: December 12, 2025
- PDF: Download PDF