[Paper] 零样本和少样本命名实体识别:犯罪领域的案例研究与数据集 (CrimeNER)
发布: (2026年3月3日 GMT+8 02:12)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.02150v1
概述
本文介绍了 CrimeNER,这是一个针对犯罪相关文本的零样本和少样本命名实体识别(NER)新基准。通过发布一个精心策划的、包含 >1.5 千篇标注文档的数据集(来源于恐怖袭击报告和美国司法部(DOJ)新闻稿),作者填补了公开可用的高质量犯罪领域标注的显著空白,并展示了在仅有少量示例的情况下,现代 NER 模型的表现情况。
关键贡献
- CrimeNERdb:公开发布的语料库,包含 1,543 篇文档,标注了 5 类粗粒度和 22 类细粒度犯罪实体类型。
- 零样本和少样本评估协议:系统实验,衡量最先进的 NER 模型和大型语言模型(LLMs)在犯罪领域的泛化能力,使用每类 0、1、5 和 10 个标注示例。
- 基准结果:提供令牌级模型(例如 BERT‑CRF、SpanBERT)和基于提示的 LLM(例如 GPT‑3.5、LLaMA‑2)的综合性能表,突出全监督与低资源设置之间的差距。
- 错误分析工具包:对常见失效模式(例如实体边界歧义、领域特定术语)进行定性分析,可指导未来模型改进。
- 开源发布:数据集、标注指南和评估脚本在开放许可证下提供,鼓励可重复性和社区贡献。
方法论
-
数据收集与标注
- 来源:公共恐怖主义事件报告(例如 Global Terrorism Database)和美国司法部新闻稿。
- 标注模式:5 个高级类别(例如 PERPETRATOR、VICTIM、LOCATION、WEAPON、CRIME_TYPE)和 22 个细分子类型(例如 GUN_TYPE、FINANCIAL_MOTIVE)。
- 质量控制:双标注并进行仲裁,粗标签的 Cohen’s κ 为 0.84。
-
Zero‑/Few‑Shot 设置
- Zero‑Shot:模型仅接收标签定义(无训练示例)。
- Few‑Shot:模型通过微调或在上下文中提示,使用每种实体类型随机抽取的 1、5 或 10 条标注句子。
- 基线:经典 CRF、基于 BERT 的 token 分类器,以及近期的 span‑based 架构。
-
LLM 提示
- 列出实体类型并要求模型标注给定句子的结构化提示。
- 对 GPT‑3.5‑Turbo、Claude‑2 和 LLaMA‑2‑13B 进行零样本(无示例)和少样本(上下文示例)实验。
-
评估
- 在粗粒度和细粒度上计算标准 NER 指标(精确率、召回率、F1)。
- 使用 bootstrap 进行统计显著性检验,以比较不同 shot 级别的模型。
结果与发现
| Model | Shots | Coarse‑F1 | Fine‑F1 |
|---|---|---|---|
| BERT‑CRF (full‑supervised) | 100 % | 92.1 | 84.3 |
| SpanBERT (few‑shot) | 10 samples | 78.4 | 62.7 |
| GPT‑3.5‑Turbo (zero‑shot) | 0 | 61.2 | 48.5 |
| GPT‑3.5‑Turbo (5‑shot) | 5 | 73.9 | 58.1 |
| LLaMA‑2‑13B (10‑shot) | 10 | 71.5 | 55.4 |
- 性能差距:即使是最强的 LLM,也比全监督的 BERT‑CRF 低约 15–20 F1 分,进一步验证了犯罪领域的难度。
- 少样本提升:仅增加 5–10 条示例,就能让 LLM 的 F1 提升 10–12 分,说明在提示设计得当的情况下,情境学习非常有效。
- 细粒度挑战:所有模型在 22 个子类型上表现更差,尤其是像 FINANCIAL_MOTIVE 或 CYBER_WEAPON 这类稀有实体。
- 错误模式:多词实体的错误标注(例如将 “armed robbery” 错分为 CRIME_TYPE + WEAPON)以及 PERPETRATOR 与 ACCOMPLICE 之间的混淆是最常见的错误。
实际意义
- 执法自动化:CrimeNER 可以嵌入处理事件报告的流水线,自动提取嫌疑人、受害者和武器细节,以加快案件分流。
- 威胁情报平台:安全分析师可以使用少样本微调的大语言模型解析开源情报(OSINT)信息流,无需昂贵的标注工作。
- 合规与审计:处理法律文件(如合规报告)的公司可以利用该数据集训练领域特定的实体识别模型,标记与犯罪相关的条款。
- 快速原型:少样本基准显示,开发者仅用 5 条标注句子即可达到可用的性能,使得概念验证开发对初创公司和非政府组织可行。
- 跨领域迁移:CrimeNER 的经验可为其他高风险、标注数据稀缺的领域(如医疗不良事件、金融欺诈)的低资源实体识别提供参考。
限制与未来工作
- 领域覆盖:语料库聚焦于美国司法部发布和恐怖主义报告;可能未能捕捉有组织犯罪、网络犯罪或非英语语境的细微差别。
- 类别不平衡:某些细粒度实体出现次数少于 20 条,限制了这些类型少样本结果的可靠性。
- 提示敏感性:大型语言模型的表现随提示措辞显著变化;本研究未对提示工程策略进行详尽探索。
未来方向
- 将数据集扩展至多语言犯罪报告和法庭记录。
- 探索基于适配器或参数高效的微调方法,以在不进行完整模型再训练的情况下提升少样本性能。
- 开发层次化 NER 模型,先预测粗粒度类别再细化至细粒度类型,以降低错误传播。
CrimeNER 为高影响力领域的实用、低资源 NER 打开了大门。通过公开数据和评估框架,作者邀请社区构建面向公共安全和法律分析的下一代智能工具。
作者
- Miguel Lopez-Duran
- Julian Fierrez
- Aythami Morales
- Daniel DeAlcala
- Gonzalo Mancera
- Javier Irigoyen
- Ruben Tolosana
- Oscar Delgado
- Francisco Jurado
- Alvaro Ortigosa
论文信息
- arXiv ID: 2603.02150v1
- 分类: cs.CL, cs.AI, cs.DB
- 出版时间: 2026年3月2日
- PDF: 下载 PDF