[Paper] X-MuTeST:一个用于可解释仇恨言论检测的多语言基准以及一种新颖的 LLM 咨询解释框架
发布: (2026年1月7日 GMT+8 01:16)
7 min read
原文: arXiv
Source: arXiv - 2601.03194v1
概述
本文介绍了 X‑MuTeST,一个新的多语言基准和训练框架,旨在解决仇恨言论检测中两个长期存在的问题:
- 在资源匮乏的印度语言(印地语和泰卢固语)上实现高准确率
- 为每一次预测提供人类可读的解释
通过将大语言模型(LLM)推理与经典的注意力增强技巧相结合,作者展示了模型可以同时变得更准确 且 更透明。
关键贡献
- Multilingual rationale dataset – 为 6,004 条印地语、4,492 条泰卢固语和 6,334 条英语帖子提供了基于 token 级别的人类标注推理,这是首个用于印地语仇恨言论检测的此类资源。
- X‑MuTeST explainability framework – 计算 unigram、bigram 和 trigram 对模型置信度的影响,并将这些“基于扰动”的解释与 LLM 生成的推理相结合。
- Explainability‑guided training – 将人类推理直接纳入损失函数,引导模型的注意力聚焦在人类认为重要的词汇上。
- Comprehensive evaluation – 报告了可解释性(Token‑F1、IOU‑F1)和忠实度(Comprehensiveness、Sufficiency)指标,展示了相较于基线分类器的提升。
- Open‑source release – 数据集、代码和已训练的检查点已公开发布,鼓励可复现性和后续研究。
方法论
- 数据收集与标注 – 对英文、印地语和泰卢固语的社交媒体帖子进行仇恨言论标注。标注者还会突出显示每个标签对应的具体词元,形成词元级别的理由集合。
- 基线分类器 – 使用在三种语言上微调的标准 Transformer(例如 BERT‑base)作为起点。
- 基于扰动的 X‑MuTeST 解释 – 对每个输入,模型在屏蔽每个 unigram、bigram 和 trigram 后重新计算预测概率。置信度的下降程度表明该 n‑gram 的“重要性”。
- LLM‑咨询的理由 – 通过外部 LLM(例如 GPT‑4)提示生成对预测的文字解释。提取 LLM 突出的词元。
- 解释的并集 – 最终的解释集合为扰动式词元与 LLM 派生词元的并集。
- 可解释性引导的训练 – 添加二次损失项,惩罚模型注意力分布与并集解释之间的差异,从而教会模型“关注”正确的词汇。
- 评估 – 可解释性指标将模型解释与人工理由进行对比;忠实度指标评估去除高亮词元是否真的改变预测。
结果与发现
| Language | Baseline F1 | X‑MuTeST‑enhanced F1 | Token‑F1 (plausibility) | Comprehensiveness (faithfulness) |
|---|---|---|---|---|
| English | 84.2% | 87.6% | 68.4% → 74.9% | 0.42 → 0.31 (lower = better) |
| Hindi | 78.9% | 82.3% | 61.1% → 68.2% | 0.48 → 0.35 |
| Telugu | 76.5% | 80.1% | 59.3% → 66.7% | 0.51 → 0.36 |
- 准确性提升: 添加人为推理和 X‑MuTeST 解释损失在所有三种语言上持续提升宏观 F1(≈3–4 分)。
- 更好的解释: Token‑F1 和 IOU‑F1 提升 5–7 分,表明模型标记的词语与人工判断更为一致。
- 更高的可信度: 更低的全面性和充分性分数表明解释不仅看似合理,而且实际驱动了模型的决策。
Source: …
实际意义
- 内容审核流水线 可以采用 X‑MuTeST 训练的模型来标记仇恨言论 并 显示导致标记的具体词语,为审核员提供快速的检查手段,降低误报率。
- 合规监管(例如 GDPR 的“解释权”)在系统能够指向经过人工验证且得到大语言模型支持的 token 级别理由时变得更为简便。
- 跨语言部署:由于该框架对印地语和泰卢固语开箱即用,面向新兴市场的平台可以在无需从头构建语言专用模型的情况下,推出更可靠的审核功能。
- 开发者工具:开源代码包含实时生成解释的实用工具,可集成到 IDE 插件、聊天机器人安全层或实时评论过滤器中。
- 迁移学习:带有理由感知的损失函数可以移植到其他文本分类任务(如有毒评论检测、错误信息标注),在不牺牲性能的前提下提升可解释性。
限制与未来工作
- 推理质量差异: 人类标注者有时对哪些 token “负责” 存在分歧,导致监督噪声;论文报告的标注者间一致性约为 0.71(Cohen’s κ)。
- 扰动的可扩展性: 为每个 n‑gram 计算置信度下降的复杂度是序列长度的 O(N²),对长篇帖子成本较高;文中提出了近似抽样策略,但尚未充分探索。
- 对大语言模型的依赖: 大语言模型生成推理的质量取决于提示设计和模型规模;使用更廉价的模型可能会产生较弱的解释。
- 领域迁移: 数据集聚焦于社交媒体评论,尚未在新闻文章、论坛或代码审查评论等其他领域进行测试。
未来方向包括:
- 利用轻量级归因方法(如 Integrated Gradients)来替代穷举的 n‑gram 掩码。
- 将基准扩展到更多低资源语言。
- 探索主动学习循环,在模型解释的基础上进一步征求人类反馈。
作者
- Mohammad Zia Ur Rehman
- Sai Kartheek Reddy Kasu
- Shashivardhan Reddy Koppula
- Sai Rithwik Reddy Chirra
- Shwetank Shekhar Singh
- Nagendra Kumar
论文信息
- arXiv ID: 2601.03194v1
- Categories: cs.CL
- Published: 2026年1月6日
- PDF: 下载 PDF