[Paper] 零样本和少样本命名实体识别：犯罪领域的案例研究与数据集 (CrimeNER)

发布: 1天前 (2026年3月3日 GMT+8 02:12)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.02150v1

概述

本文介绍了 CrimeNER，这是一个针对犯罪相关文本的零样本和少样本命名实体识别（NER）新基准。通过发布一个精心策划的、包含 >1.5 千篇标注文档的数据集（来源于恐怖袭击报告和美国司法部（DOJ）新闻稿），作者填补了公开可用的高质量犯罪领域标注的显著空白，并展示了在仅有少量示例的情况下，现代 NER 模型的表现情况。

关键贡献

CrimeNERdb：公开发布的语料库，包含 1,543 篇文档，标注了 5 类粗粒度和 22 类细粒度犯罪实体类型。
零样本和少样本评估协议：系统实验，衡量最先进的 NER 模型和大型语言模型（LLMs）在犯罪领域的泛化能力，使用每类 0、1、5 和 10 个标注示例。
基准结果：提供令牌级模型（例如 BERT‑CRF、SpanBERT）和基于提示的 LLM（例如 GPT‑3.5、LLaMA‑2）的综合性能表，突出全监督与低资源设置之间的差距。
错误分析工具包：对常见失效模式（例如实体边界歧义、领域特定术语）进行定性分析，可指导未来模型改进。
开源发布：数据集、标注指南和评估脚本在开放许可证下提供，鼓励可重复性和社区贡献。

方法论

数据收集与标注
- 来源：公共恐怖主义事件报告（例如 Global Terrorism Database）和美国司法部新闻稿。
- 标注模式：5 个高级类别（例如 PERPETRATOR、VICTIM、LOCATION、WEAPON、CRIME_TYPE）和 22 个细分子类型（例如 GUN_TYPE、FINANCIAL_MOTIVE）。
- 质量控制：双标注并进行仲裁，粗标签的 Cohen’s κ 为 0.84。
Zero‑/Few‑Shot 设置
- Zero‑Shot：模型仅接收标签定义（无训练示例）。
- Few‑Shot：模型通过微调或在上下文中提示，使用每种实体类型随机抽取的 1、5 或 10 条标注句子。
- 基线：经典 CRF、基于 BERT 的 token 分类器，以及近期的 span‑based 架构。
LLM 提示
- 列出实体类型并要求模型标注给定句子的结构化提示。
- 对 GPT‑3.5‑Turbo、Claude‑2 和 LLaMA‑2‑13B 进行零样本（无示例）和少样本（上下文示例）实验。
评估
- 在粗粒度和细粒度上计算标准 NER 指标（精确率、召回率、F1）。
- 使用 bootstrap 进行统计显著性检验，以比较不同 shot 级别的模型。

结果与发现

Model	Shots	Coarse‑F1	Fine‑F1
BERT‑CRF (full‑supervised)	100 %	92.1	84.3
SpanBERT (few‑shot)	10 samples	78.4	62.7
GPT‑3.5‑Turbo (zero‑shot)	0	61.2	48.5
GPT‑3.5‑Turbo (5‑shot)	5	73.9	58.1
LLaMA‑2‑13B (10‑shot)	10	71.5	55.4

性能差距：即使是最强的 LLM，也比全监督的 BERT‑CRF 低约 15–20 F1 分，进一步验证了犯罪领域的难度。
少样本提升：仅增加 5–10 条示例，就能让 LLM 的 F1 提升 10–12 分，说明在提示设计得当的情况下，情境学习非常有效。
细粒度挑战：所有模型在 22 个子类型上表现更差，尤其是像 FINANCIAL_MOTIVE 或 CYBER_WEAPON 这类稀有实体。
错误模式：多词实体的错误标注（例如将 “armed robbery” 错分为 CRIME_TYPE + WEAPON）以及 PERPETRATOR 与 ACCOMPLICE 之间的混淆是最常见的错误。

实际意义

执法自动化：CrimeNER 可以嵌入处理事件报告的流水线，自动提取嫌疑人、受害者和武器细节，以加快案件分流。
威胁情报平台：安全分析师可以使用少样本微调的大语言模型解析开源情报（OSINT）信息流，无需昂贵的标注工作。
合规与审计：处理法律文件（如合规报告）的公司可以利用该数据集训练领域特定的实体识别模型，标记与犯罪相关的条款。
快速原型：少样本基准显示，开发者仅用 5 条标注句子即可达到可用的性能，使得概念验证开发对初创公司和非政府组织可行。
跨领域迁移：CrimeNER 的经验可为其他高风险、标注数据稀缺的领域（如医疗不良事件、金融欺诈）的低资源实体识别提供参考。

限制与未来工作

领域覆盖：语料库聚焦于美国司法部发布和恐怖主义报告；可能未能捕捉有组织犯罪、网络犯罪或非英语语境的细微差别。
类别不平衡：某些细粒度实体出现次数少于 20 条，限制了这些类型少样本结果的可靠性。
提示敏感性：大型语言模型的表现随提示措辞显著变化；本研究未对提示工程策略进行详尽探索。

未来方向

将数据集扩展至多语言犯罪报告和法庭记录。
探索基于适配器或参数高效的微调方法，以在不进行完整模型再训练的情况下提升少样本性能。
开发层次化 NER 模型，先预测粗粒度类别再细化至细粒度类型，以降低错误传播。

CrimeNER 为高影响力领域的实用、低资源 NER 打开了大门。通过公开数据和评估框架，作者邀请社区构建面向公共安全和法律分析的下一代智能工具。

作者

Miguel Lopez-Duran
Julian Fierrez
Aythami Morales
Daniel DeAlcala
Gonzalo Mancera
Javier Irigoyen
Ruben Tolosana
Oscar Delgado
Francisco Jurado
Alvaro Ortigosa

论文信息

arXiv ID: 2603.02150v1
分类: cs.CL, cs.AI, cs.DB
出版时间: 2026年3月2日
PDF: 下载 PDF

[Paper] 零样本和少样本命名实体识别：犯罪领域的案例研究与数据集 (CrimeNER)

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

未来方向

作者

论文信息

相关文章

[Paper] 测试时强化学习的工具验证

[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion：行业部署经验

[Paper] LLMs 作为战略行为者：行为对齐、风险校准与论证框架在地缘政治模拟中的研究

[Paper] 用于长期推理的递归模型