[Paper] X-MuTeST:一个用于可解释仇恨言论检测的多语言基准以及一种新颖的 LLM 咨询解释框架

发布: (2026年1月7日 GMT+8 01:16)
7 min read
原文: arXiv

Source: arXiv - 2601.03194v1

概述

本文介绍了 X‑MuTeST,一个新的多语言基准和训练框架,旨在解决仇恨言论检测中两个长期存在的问题:

  1. 在资源匮乏的印度语言(印地语和泰卢固语)上实现高准确率
  2. 为每一次预测提供人类可读的解释

通过将大语言模型(LLM)推理与经典的注意力增强技巧相结合,作者展示了模型可以同时变得更准确 更透明。

关键贡献

  • Multilingual rationale dataset – 为 6,004 条印地语、4,492 条泰卢固语和 6,334 条英语帖子提供了基于 token 级别的人类标注推理,这是首个用于印地语仇恨言论检测的此类资源。
  • X‑MuTeST explainability framework – 计算 unigram、bigram 和 trigram 对模型置信度的影响,并将这些“基于扰动”的解释与 LLM 生成的推理相结合。
  • Explainability‑guided training – 将人类推理直接纳入损失函数,引导模型的注意力聚焦在人类认为重要的词汇上。
  • Comprehensive evaluation – 报告了可解释性(Token‑F1、IOU‑F1)和忠实度(Comprehensiveness、Sufficiency)指标,展示了相较于基线分类器的提升。
  • Open‑source release – 数据集、代码和已训练的检查点已公开发布,鼓励可复现性和后续研究。

方法论

  1. 数据收集与标注 – 对英文、印地语和泰卢固语的社交媒体帖子进行仇恨言论标注。标注者还会突出显示每个标签对应的具体词元,形成词元级别的理由集合。
  2. 基线分类器 – 使用在三种语言上微调的标准 Transformer(例如 BERT‑base)作为起点。
  3. 基于扰动的 X‑MuTeST 解释 – 对每个输入,模型在屏蔽每个 unigram、bigram 和 trigram 后重新计算预测概率。置信度的下降程度表明该 n‑gram 的“重要性”。
  4. LLM‑咨询的理由 – 通过外部 LLM(例如 GPT‑4)提示生成对预测的文字解释。提取 LLM 突出的词元。
  5. 解释的并集 – 最终的解释集合为扰动式词元与 LLM 派生词元的并集。
  6. 可解释性引导的训练 – 添加二次损失项,惩罚模型注意力分布与并集解释之间的差异,从而教会模型“关注”正确的词汇。
  7. 评估 – 可解释性指标将模型解释与人工理由进行对比;忠实度指标评估去除高亮词元是否真的改变预测。

结果与发现

LanguageBaseline F1X‑MuTeST‑enhanced F1Token‑F1 (plausibility)Comprehensiveness (faithfulness)
English84.2%87.6%68.4% → 74.9%0.42 → 0.31 (lower = better)
Hindi78.9%82.3%61.1% → 68.2%0.48 → 0.35
Telugu76.5%80.1%59.3% → 66.7%0.51 → 0.36
  • 准确性提升: 添加人为推理和 X‑MuTeST 解释损失在所有三种语言上持续提升宏观 F1(≈3–4 分)。
  • 更好的解释: Token‑F1 和 IOU‑F1 提升 5–7 分,表明模型标记的词语与人工判断更为一致。
  • 更高的可信度: 更低的全面性和充分性分数表明解释不仅看似合理,而且实际驱动了模型的决策。

Source:

实际意义

  • 内容审核流水线 可以采用 X‑MuTeST 训练的模型来标记仇恨言论 显示导致标记的具体词语,为审核员提供快速的检查手段,降低误报率。
  • 合规监管(例如 GDPR 的“解释权”)在系统能够指向经过人工验证且得到大语言模型支持的 token 级别理由时变得更为简便。
  • 跨语言部署:由于该框架对印地语和泰卢固语开箱即用,面向新兴市场的平台可以在无需从头构建语言专用模型的情况下,推出更可靠的审核功能。
  • 开发者工具:开源代码包含实时生成解释的实用工具,可集成到 IDE 插件、聊天机器人安全层或实时评论过滤器中。
  • 迁移学习:带有理由感知的损失函数可以移植到其他文本分类任务(如有毒评论检测、错误信息标注),在不牺牲性能的前提下提升可解释性。

限制与未来工作

  • 推理质量差异: 人类标注者有时对哪些 token “负责” 存在分歧,导致监督噪声;论文报告的标注者间一致性约为 0.71(Cohen’s κ)。
  • 扰动的可扩展性: 为每个 n‑gram 计算置信度下降的复杂度是序列长度的 O(N²),对长篇帖子成本较高;文中提出了近似抽样策略,但尚未充分探索。
  • 对大语言模型的依赖: 大语言模型生成推理的质量取决于提示设计和模型规模;使用更廉价的模型可能会产生较弱的解释。
  • 领域迁移: 数据集聚焦于社交媒体评论,尚未在新闻文章、论坛或代码审查评论等其他领域进行测试。

未来方向包括:

  1. 利用轻量级归因方法(如 Integrated Gradients)来替代穷举的 n‑gram 掩码。
  2. 将基准扩展到更多低资源语言。
  3. 探索主动学习循环,在模型解释的基础上进一步征求人类反馈。

作者

  • Mohammad Zia Ur Rehman
  • Sai Kartheek Reddy Kasu
  • Shashivardhan Reddy Koppula
  • Sai Rithwik Reddy Chirra
  • Shwetank Shekhar Singh
  • Nagendra Kumar

论文信息

  • arXiv ID: 2601.03194v1
  • Categories: cs.CL
  • Published: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »