[Paper] EVENT5Ws：一个用于开放域事件抽取的大规模文档数据集

发布: 22小时前 (2026年4月24日 GMT+8 01:42)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21890v1

概述

本文介绍了 EVENT5Ws，一个新的大规模人工标注数据集，用于从全文文本中进行开放域事件抽取。通过覆盖广泛的事件类型并提供统计验证的标注，该数据集填补了一个关键空白，克服了限制稳健、真实世界事件抽取系统发展的瓶颈。

EVENT5Ws 数据集：> 200 k 事件实例，涵盖经典的“5 Ws”（who, what, when, where, why），跨越多样的领域和地区。
系统化标注流水线：一个可复现的工作流，结合专家指南、众包验证和统计质量检查。
基准评估套件：在 EVENT5Ws 上评估多个最先进的预训练大语言模型（LLMs），建立基线性能指标。
跨领域泛化研究：展示在 EVENT5Ws 上微调的模型能够很好地迁移到其他事件抽取语料库（例如来自不同地区的危机报告数据集）。
实践经验与建议：提供一份简明的“操作手册”，用于在 NLP 中构建大规模高质量标注项目。

Data Collection – 作者抓取了公开可获取的新闻文章、博客帖子和报告，涵盖了广泛的主题（政治、自然灾害、体育等）。
Annotation Schema – 每个事件被拆分为五个标准要素（who, what, when, where, why）。标注者在原始文档中标记出回答每个要素的文本跨度。
Annotation Pipeline –
- Guideline design: 详细示例和边缘情况处理规则。
- Crowdsourced labeling: 每篇文档由多位标注者标注；多数投票解决分歧。
- Expert review: 由领域专家对部分数据进行双重检查，以计算标注者间的一致性（Cohen’s κ ≈ 0.78）。
- Statistical verification: 通过自助抽样确保最终数据集满足预设的标签准确性置信阈值。
Model Evaluation – 在训练集上微调多个大型语言模型（BERT、RoBERTa、T5、GPT‑3.5），随后在保留的 EVENT5Ws 数据以及外部事件抽取基准上进行测试。

该流水线刻意设计为模块化，使团队能够在不重新设计整体流程的情况下，替换不同的标注器、模型或质量控制步骤。

EVENT5Ws 有望成为构建真实世界事件抽取流水线的基石资源，无论是 AI 驱动的新闻编辑工具还是应急响应分析平台。通过降低数据壁垒并提供大规模标注的清晰路线图，本文为更稳健、可推广的 NLP 系统铺平道路，使其能够理解我们周围世界的“谁、什么、何时、何地、为何”。