[Paper] 零样本和少样本命名实体识别:犯罪领域的案例研究与数据集 (CrimeNER)

发布: (2026年3月3日 GMT+8 02:12)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.02150v1

概述

本文介绍了 CrimeNER,这是一个针对犯罪相关文本的零样本和少样本命名实体识别(NER)新基准。通过发布一个精心策划的、包含 >1.5 千篇标注文档的数据集(来源于恐怖袭击报告和美国司法部(DOJ)新闻稿),作者填补了公开可用的高质量犯罪领域标注的显著空白,并展示了在仅有少量示例的情况下,现代 NER 模型的表现情况。

关键贡献

  • CrimeNERdb:公开发布的语料库,包含 1,543 篇文档,标注了 5 类粗粒度和 22 类细粒度犯罪实体类型。
  • 零样本和少样本评估协议:系统实验,衡量最先进的 NER 模型和大型语言模型(LLMs)在犯罪领域的泛化能力,使用每类 0、1、5 和 10 个标注示例。
  • 基准结果:提供令牌级模型(例如 BERT‑CRF、SpanBERT)和基于提示的 LLM(例如 GPT‑3.5、LLaMA‑2)的综合性能表,突出全监督与低资源设置之间的差距。
  • 错误分析工具包:对常见失效模式(例如实体边界歧义、领域特定术语)进行定性分析,可指导未来模型改进。
  • 开源发布:数据集、标注指南和评估脚本在开放许可证下提供,鼓励可重复性和社区贡献。

方法论

  1. 数据收集与标注

    • 来源:公共恐怖主义事件报告(例如 Global Terrorism Database)和美国司法部新闻稿。
    • 标注模式:5 个高级类别(例如 PERPETRATORVICTIMLOCATIONWEAPONCRIME_TYPE)和 22 个细分子类型(例如 GUN_TYPEFINANCIAL_MOTIVE)。
    • 质量控制:双标注并进行仲裁,粗标签的 Cohen’s κ 为 0.84。
  2. Zero‑/Few‑Shot 设置

    • Zero‑Shot:模型仅接收标签定义(无训练示例)。
    • Few‑Shot:模型通过微调或在上下文中提示,使用每种实体类型随机抽取的 1、5 或 10 条标注句子。
    • 基线:经典 CRF、基于 BERT 的 token 分类器,以及近期的 span‑based 架构。
  3. LLM 提示

    • 列出实体类型并要求模型标注给定句子的结构化提示。
    • 对 GPT‑3.5‑Turbo、Claude‑2 和 LLaMA‑2‑13B 进行零样本(无示例)和少样本(上下文示例)实验。
  4. 评估

    • 在粗粒度和细粒度上计算标准 NER 指标(精确率、召回率、F1)。
    • 使用 bootstrap 进行统计显著性检验,以比较不同 shot 级别的模型。

结果与发现

ModelShotsCoarse‑F1Fine‑F1
BERT‑CRF (full‑supervised)100 %92.184.3
SpanBERT (few‑shot)10 samples78.462.7
GPT‑3.5‑Turbo (zero‑shot)061.248.5
GPT‑3.5‑Turbo (5‑shot)573.958.1
LLaMA‑2‑13B (10‑shot)1071.555.4
  • 性能差距:即使是最强的 LLM,也比全监督的 BERT‑CRF 低约 15–20 F1 分,进一步验证了犯罪领域的难度。
  • 少样本提升:仅增加 5–10 条示例,就能让 LLM 的 F1 提升 10–12 分,说明在提示设计得当的情况下,情境学习非常有效。
  • 细粒度挑战:所有模型在 22 个子类型上表现更差,尤其是像 FINANCIAL_MOTIVECYBER_WEAPON 这类稀有实体。
  • 错误模式:多词实体的错误标注(例如将 “armed robbery” 错分为 CRIME_TYPE + WEAPON)以及 PERPETRATORACCOMPLICE 之间的混淆是最常见的错误。

实际意义

  • 执法自动化:CrimeNER 可以嵌入处理事件报告的流水线,自动提取嫌疑人、受害者和武器细节,以加快案件分流。
  • 威胁情报平台:安全分析师可以使用少样本微调的大语言模型解析开源情报(OSINT)信息流,无需昂贵的标注工作。
  • 合规与审计:处理法律文件(如合规报告)的公司可以利用该数据集训练领域特定的实体识别模型,标记与犯罪相关的条款。
  • 快速原型:少样本基准显示,开发者仅用 5 条标注句子即可达到可用的性能,使得概念验证开发对初创公司和非政府组织可行。
  • 跨领域迁移:CrimeNER 的经验可为其他高风险、标注数据稀缺的领域(如医疗不良事件、金融欺诈)的低资源实体识别提供参考。

限制与未来工作

  • 领域覆盖:语料库聚焦于美国司法部发布和恐怖主义报告;可能未能捕捉有组织犯罪、网络犯罪或非英语语境的细微差别。
  • 类别不平衡:某些细粒度实体出现次数少于 20 条,限制了这些类型少样本结果的可靠性。
  • 提示敏感性:大型语言模型的表现随提示措辞显著变化;本研究未对提示工程策略进行详尽探索。

未来方向

  • 将数据集扩展至多语言犯罪报告和法庭记录。
  • 探索基于适配器或参数高效的微调方法,以在不进行完整模型再训练的情况下提升少样本性能。
  • 开发层次化 NER 模型,先预测粗粒度类别再细化至细粒度类型,以降低错误传播。

CrimeNER 为高影响力领域的实用、低资源 NER 打开了大门。通过公开数据和评估框架,作者邀请社区构建面向公共安全和法律分析的下一代智能工具。

作者

  • Miguel Lopez-Duran
  • Julian Fierrez
  • Aythami Morales
  • Daniel DeAlcala
  • Gonzalo Mancera
  • Javier Irigoyen
  • Ruben Tolosana
  • Oscar Delgado
  • Francisco Jurado
  • Alvaro Ortigosa

论文信息

  • arXiv ID: 2603.02150v1
  • 分类: cs.CL, cs.AI, cs.DB
  • 出版时间: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »