[Paper] 特征选择赋能的 BERT 用于仇恨言论检测与词汇扩展

发布: (2025年12月2日 GMT+8 03:11)
6 min read
原文: arXiv

Source: arXiv - 2512.02141v1

Overview

本文提出了一种更精简的 BERT 微调方法用于仇恨言论检测,在不牺牲准确率的前提下减少了训练数据和计算量。通过挑选最具信息量的样本并用俚语和拼写错误的辱骂词扩展 BERT 的分词器,作者展示了一条实现更快、更具适应性的内容审核模型的实用路径。

Key Contributions

  • Data‑efficient sample selection: 使用 TF‑IDF 分数仅保留携带最多信息的前 75 % 训练样本。
  • Vocabulary augmentation: 用精心挑选的仇恨言论俚语、leet‑speak 和词形变体扩展 BERT 的 WordPiece 分词器,这些词在原始词表中会被拆分为子词。
  • Empirical validation: 证明在标准仇恨言论基准上,使用减量数据和扩展词表的模型能够匹配或超越基线 BERT 的性能。
  • Computational savings: 展示了训练时间和内存使用的显著下降,使该方法在生产流水线中具有吸引力。

Methodology

  1. Dataset preprocessing – 作者从公开的仇恨言论数据集(如 Davidson 或 Founta 语料库)开始。
  2. TF‑IDF‑based pruning – 对每个训练样本在整个语料库上计算 TF‑IDF 向量。将 TF‑IDF 总分最低的 25 % 样本(即信息量最少的)剔除,假设它们对判别信号贡献有限。
  3. Tokenizer enrichment – 通过挖掘高频辱骂俚语、变形(如 “h8”、 “n1g@”)以及社区特有的变体,构建领域特定词典。这些词作为新 token 加入 BERT 的分词器,防止被拆分为通用子词。
  4. Fine‑tuning – 使用减量数据集和扩展后的分词器对标准 BERT‑base 模型进行微调。超参数基本保持不变,以隔离两项干预的效果。
  5. Evaluation – 报告标准指标(accuracy、F1‑score、precision、recall),并与在完整数据集上使用原始分词器的基线 BERT 模型进行比较。

Results & Findings

  • Performance parity: 使用 75 % 样本的精简模型的 F1‑score 与完整数据基线相差不到 0.3 %,证实被剔除的样本大多是冗余的。
  • Boost from augmentation: 添加俚语 token 使 F1‑score 在精简数据基线上提升约 1.2 %,表明 BERT 默认词表遗漏了许多辱骂线索。
  • Training efficiency: 由于训练集变小,单个 epoch 的时间下降约 30 %,峰值 GPU 内存使用下降约 20 %。
  • Robustness to novel terms: 在包含新造贬义词的保留测试集上,扩展模型的召回率提升约 4 %(绝对值),显示出对语言演变的更好适应性。

Practical Implications

  • Faster model iteration: 团队可以更频繁(如每周)重新训练审核模型,而不会产生巨大的计算成本,从而更快响应新出现的仇恨言论趋势。
  • Lower infrastructure budget: 更小的训练集转化为更低的云 GPU 开支,使先进的 NLP 审核技术对初创公司和小型平台更易获得。
  • Improved detection of evasive language: 通过显式教会分词器识别俚语和 leet‑speak,审核 API 对简单的混淆技巧的抵抗力增强。
  • Plug‑and‑play augmentation pipeline: 词表扩展步骤可以自动化(例如定期抓取仇恨言论论坛),并以最少的代码改动集成到现有的 BERT 微调脚本中。

Limitations & Future Work

  • Lexicon maintenance: 俚语列表需要持续更新;可能需要自动化发现管道以跟上快速的 meme 演变。
  • Generalization to other domains: TF‑IDF 剪枝策略仅在单一仇恨言论基准上评估;其在更大、更多样化语料上的有效性仍待检验。
  • Model size constraints: 本研究聚焦于 BERT‑base;将该方法扩展到更大的 Transformer(如 RoBERTa‑large)可能会出现不同的内存和速度权衡。
  • Bias considerations: 添加领域特定 token 可能在 curated 列表过度代表某些群体时放大偏见;未来工作应加入偏见缓解检查。

Bottom line: 通过智能地裁剪训练数据并让 BERT 学会仇恨语言,开发者可以构建更快、更便宜且更具韧性的内容审核模型,保持对不断变化的俚语生态的领先优势。

Authors

  • Pritish N. Desai
  • Tanay Kewalramani
  • Srimanta Mandal

Paper Information

  • arXiv ID: 2512.02141v1
  • Categories: cs.CL, cs.AI, cs.NE
  • Published: December 1, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »