[Paper] 孟加拉语仇恨言论分类:使用微调的Transformer模型
发布: (2025年12月2日 GMT+8 22:56)
6 min read
原文: arXiv
Source: arXiv - 2512.02845v1
概述
本文针对孟加拉语(Bangla)的仇恨言论检测展开研究——这是一种拥有超过2.3亿使用者的语言,但在自然语言处理工具方面仍然服务不足。通过在 BLP 2025 共享任务数据上微调多种 Transformer 模型,作者展示了语言特定的预训练(BanglaBERT)相较于通用多语言模型具有显著优势,为低资源环境下构建更安全的在线社区提供了实用路径。
关键贡献
- 全面的基线套件 – 重新实现了经典基线(多数投票、随机、SVM),并加入了逻辑回归、随机森林和决策树,以提供坚实的参考基准。
- Transformer 基准测试 – 对四类 Transformer(DistilBERT、BanglaBERT、m‑BERT、XLM‑RoBERTa)在两项仇恨言论子任务(二分类和细粒度分类)上进行评估。
- 语言特定预训练的实证证明 – 结果显示,尽管 BanglaBERT 参数更少,但在孟加拉语仇恨言论任务上始终优于更大的多语言模型。
- 开源可复现性 – 提供代码和模型检查点,方便其他研究者和工程师复现并扩展本工作。
方法论
- 数据 – 使用 BLP 2025 共享任务数据集,包含标注为仇恨言论的孟加拉语社交媒体帖子(子任务 1A:二分类,子任务 1B:多分类)。
- 基线模型 – 在原始文本的 TF‑IDF 特征上训练传统分类器。
- Transformer 微调 – 加载预训练检查点(DistilBERT、m‑BERT、XLM‑RoBERTa、BanglaBERT),并在其上添加单层线性分类头。
- 训练策略 – 采用标准做法:AdamW 优化器、学习率预热、在验证集损失上提前停止,以及使用类别权重平衡来缓解标签不均。
- 评估 – 报告宏平均 F1 分数(官方共享任务指标),分别针对两个子任务,将每个模型的表现与基线进行比较。
结果与发现
| 模型 | 子任务 1A(二分类)F1 | 子任务 1B(多分类)F1 |
|---|---|---|
| Majority / Random | ~0.45 / ~0.30 | ~0.30 / ~0.20 |
| SVM / Logistic Regression | 0.62 / 0.58 | 0.55 / 0.51 |
| DistilBERT | 0.68 | 0.60 |
| BanglaBERT | 0.78 | 0.71 |
| m‑BERT | 0.74 | 0.66 |
| XLM‑RoBERTa | 0.75 | 0.68 |
- 所有 Transformer 模型均优于经典基线,验证了上下文嵌入在孟加拉语上的强大效能。
- BanglaBERT 在两项任务上均取得最高宏 F1,尽管参数量少于多语言模型。
- DistilBERT 表现落后,可能是由于容量受限且缺乏孟加拉语专属的预训练数据。
实际意义
- 审查流水线 – 社交媒体平台可将 BanglaBERT 作为即插即用组件集成,用于实时标记仇恨内容,降低对人工审查的依赖。
- 资源高效部署 – BanglaBERT 较小的体积意味着更低的 GPU/CPU 需求,适合边缘设备或预算有限的云环境。
- 可迁移工作流 – 相同的微调配方可应用于其他低资源语言,推动语言特定模型的更广泛采用。
- 开源工具 – 作者公开的代码使开发者能够快速原型化自定义审查机器人、情感分析器或社区健康仪表盘,服务孟加拉语受众。
局限性与未来工作
- 数据集范围 – 共享任务语料规模有限且领域单一(主要是公开帖子),可能未覆盖不同平台上孟加拉语仇恨言论的全部多样性。
- 类别不平衡 – 部分仇恨类别样本稀少,可能导致宏 F1 分数被高估;更平衡的数据将提供更清晰的评估。
- 模型鲁棒性 – 本研究未探讨对抗攻击或代码切换(孟加拉语‑英语混合),而这些在真实环境中十分常见。
- 未来方向 – 扩充数据集、加入多语言代码切换处理、以及对 BanglaBERT 进行轻量化蒸馏以实现设备端推理,都是值得探索的下一步。
作者
- Yalda Keivan Jafari
- Krishno Dey
论文信息
- arXiv ID: 2512.02845v1
- 分类: cs.CL
- 发布时间: 2025 年 12 月 2 日
- PDF: Download PDF