[Paper] 特征选择赋能的 BERT 用于仇恨言论检测与词汇扩展

发布: 3天前 (2025年12月2日 GMT+8 03:11)

6 min read

原文: arXiv

Source: arXiv - 2512.02141v1

Overview

本文提出了一种更精简的 BERT 微调方法用于仇恨言论检测，在不牺牲准确率的前提下减少了训练数据和计算量。通过挑选最具信息量的样本并用俚语和拼写错误的辱骂词扩展 BERT 的分词器，作者展示了一条实现更快、更具适应性的内容审核模型的实用路径。

Data‑efficient sample selection: 使用 TF‑IDF 分数仅保留携带最多信息的前 75 % 训练样本。
Vocabulary augmentation: 用精心挑选的仇恨言论俚语、leet‑speak 和词形变体扩展 BERT 的 WordPiece 分词器，这些词在原始词表中会被拆分为子词。
Empirical validation: 证明在标准仇恨言论基准上，使用减量数据和扩展词表的模型能够匹配或超越基线 BERT 的性能。
Computational savings: 展示了训练时间和内存使用的显著下降，使该方法在生产流水线中具有吸引力。

Dataset preprocessing – 作者从公开的仇恨言论数据集（如 Davidson 或 Founta 语料库）开始。
TF‑IDF‑based pruning – 对每个训练样本在整个语料库上计算 TF‑IDF 向量。将 TF‑IDF 总分最低的 25 % 样本（即信息量最少的）剔除，假设它们对判别信号贡献有限。
Tokenizer enrichment – 通过挖掘高频辱骂俚语、变形（如 “h8”、 “n1g@”）以及社区特有的变体，构建领域特定词典。这些词作为新 token 加入 BERT 的分词器，防止被拆分为通用子词。
Fine‑tuning – 使用减量数据集和扩展后的分词器对标准 BERT‑base 模型进行微调。超参数基本保持不变，以隔离两项干预的效果。
Evaluation – 报告标准指标（accuracy、F1‑score、precision、recall），并与在完整数据集上使用原始分词器的基线 BERT 模型进行比较。

Performance parity: 使用 75 % 样本的精简模型的 F1‑score 与完整数据基线相差不到 0.3 %，证实被剔除的样本大多是冗余的。
Boost from augmentation: 添加俚语 token 使 F1‑score 在精简数据基线上提升约 1.2 %，表明 BERT 默认词表遗漏了许多辱骂线索。
Training efficiency: 由于训练集变小，单个 epoch 的时间下降约 30 %，峰值 GPU 内存使用下降约 20 %。
Robustness to novel terms: 在包含新造贬义词的保留测试集上，扩展模型的召回率提升约 4 %（绝对值），显示出对语言演变的更好适应性。

Faster model iteration: 团队可以更频繁（如每周）重新训练审核模型，而不会产生巨大的计算成本，从而更快响应新出现的仇恨言论趋势。
Lower infrastructure budget: 更小的训练集转化为更低的云 GPU 开支，使先进的 NLP 审核技术对初创公司和小型平台更易获得。
Improved detection of evasive language: 通过显式教会分词器识别俚语和 leet‑speak，审核 API 对简单的混淆技巧的抵抗力增强。
Plug‑and‑play augmentation pipeline: 词表扩展步骤可以自动化（例如定期抓取仇恨言论论坛），并以最少的代码改动集成到现有的 BERT 微调脚本中。

Lexicon maintenance: 俚语列表需要持续更新；可能需要自动化发现管道以跟上快速的 meme 演变。
Generalization to other domains: TF‑IDF 剪枝策略仅在单一仇恨言论基准上评估；其在更大、更多样化语料上的有效性仍待检验。
Model size constraints: 本研究聚焦于 BERT‑base；将该方法扩展到更大的 Transformer（如 RoBERTa‑large）可能会出现不同的内存和速度权衡。
Bias considerations: 添加领域特定 token 可能在 curated 列表过度代表某些群体时放大偏见；未来工作应加入偏见缓解检查。

Bottom line: 通过智能地裁剪训练数据并让 BERT 学会仇恨语言，开发者可以构建更快、更便宜且更具韧性的内容审核模型，保持对不断变化的俚语生态的领先优势。