[Paper] 孟加拉语仇恨言论分类：使用微调的Transformer模型

发布: 2个月前 (2025年12月2日 GMT+8 22:56)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.02845v1

概述

本文针对孟加拉语（Bangla）的仇恨言论检测展开研究——这是一种拥有超过2.3亿使用者的语言，但在自然语言处理工具方面仍然服务不足。通过在 BLP 2025 共享任务数据上微调多种 Transformer 模型，作者展示了语言特定的预训练（BanglaBERT）相较于通用多语言模型具有显著优势，为低资源环境下构建更安全的在线社区提供了实用路径。

关键贡献

全面的基线套件 – 重新实现了经典基线（多数投票、随机、SVM），并加入了逻辑回归、随机森林和决策树，以提供坚实的参考基准。
Transformer 基准测试 – 对四类 Transformer（DistilBERT、BanglaBERT、m‑BERT、XLM‑RoBERTa）在两项仇恨言论子任务（二分类和细粒度分类）上进行评估。
语言特定预训练的实证证明 – 结果显示，尽管 BanglaBERT 参数更少，但在孟加拉语仇恨言论任务上始终优于更大的多语言模型。
开源可复现性 – 提供代码和模型检查点，方便其他研究者和工程师复现并扩展本工作。

方法论

数据 – 使用 BLP 2025 共享任务数据集，包含标注为仇恨言论的孟加拉语社交媒体帖子（子任务 1A：二分类，子任务 1B：多分类）。
基线模型 – 在原始文本的 TF‑IDF 特征上训练传统分类器。
Transformer 微调 – 加载预训练检查点（DistilBERT、m‑BERT、XLM‑RoBERTa、BanglaBERT），并在其上添加单层线性分类头。
训练策略 – 采用标准做法：AdamW 优化器、学习率预热、在验证集损失上提前停止，以及使用类别权重平衡来缓解标签不均。
评估 – 报告宏平均 F1 分数（官方共享任务指标），分别针对两个子任务，将每个模型的表现与基线进行比较。

结果与发现

模型	子任务 1A（二分类）F1	子任务 1B（多分类）F1
Majority / Random	~0.45 / ~0.30	~0.30 / ~0.20
SVM / Logistic Regression	0.62 / 0.58	0.55 / 0.51
DistilBERT	0.68	0.60
BanglaBERT	0.78	0.71
m‑BERT	0.74	0.66
XLM‑RoBERTa	0.75	0.68

所有 Transformer 模型均优于经典基线，验证了上下文嵌入在孟加拉语上的强大效能。
BanglaBERT 在两项任务上均取得最高宏 F1，尽管参数量少于多语言模型。
DistilBERT 表现落后，可能是由于容量受限且缺乏孟加拉语专属的预训练数据。

实际意义

审查流水线 – 社交媒体平台可将 BanglaBERT 作为即插即用组件集成，用于实时标记仇恨内容，降低对人工审查的依赖。
资源高效部署 – BanglaBERT 较小的体积意味着更低的 GPU/CPU 需求，适合边缘设备或预算有限的云环境。
可迁移工作流 – 相同的微调配方可应用于其他低资源语言，推动语言特定模型的更广泛采用。
开源工具 – 作者公开的代码使开发者能够快速原型化自定义审查机器人、情感分析器或社区健康仪表盘，服务孟加拉语受众。

局限性与未来工作

数据集范围 – 共享任务语料规模有限且领域单一（主要是公开帖子），可能未覆盖不同平台上孟加拉语仇恨言论的全部多样性。
类别不平衡 – 部分仇恨类别样本稀少，可能导致宏 F1 分数被高估；更平衡的数据将提供更清晰的评估。
模型鲁棒性 – 本研究未探讨对抗攻击或代码切换（孟加拉语‑英语混合），而这些在真实环境中十分常见。
未来方向 – 扩充数据集、加入多语言代码切换处理、以及对 BanglaBERT 进行轻量化蒸馏以实现设备端推理，都是值得探索的下一步。

作者

Yalda Keivan Jafari
Krishno Dey

论文信息

arXiv ID: 2512.02845v1
分类: cs.CL
发布时间: 2025 年 12 月 2 日
PDF: Download PDF

[Paper] 孟加拉语仇恨言论分类：使用微调的Transformer模型

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[论文] 犯错是人之常情：通过 LLM 分析对已发表 AI 论文错误的系统量化