[Paper] X-MuTeST：一个用于可解释仇恨言论检测的多语言基准以及一种新颖的 LLM 咨询解释框架

发布: 1个月前 (2026年1月7日 GMT+8 01:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03194v1

概述

本文介绍了 X‑MuTeST，一个新的多语言基准和训练框架，旨在解决仇恨言论检测中两个长期存在的问题：

通过将大语言模型（LLM）推理与经典的注意力增强技巧相结合，作者展示了模型可以同时变得更准确且更透明。

Multilingual rationale dataset – 为 6,004 条印地语、4,492 条泰卢固语和 6,334 条英语帖子提供了基于 token 级别的人类标注推理，这是首个用于印地语仇恨言论检测的此类资源。
X‑MuTeST explainability framework – 计算 unigram、bigram 和 trigram 对模型置信度的影响，并将这些“基于扰动”的解释与 LLM 生成的推理相结合。
Explainability‑guided training – 将人类推理直接纳入损失函数，引导模型的注意力聚焦在人类认为重要的词汇上。
Comprehensive evaluation – 报告了可解释性（Token‑F1、IOU‑F1）和忠实度（Comprehensiveness、Sufficiency）指标，展示了相较于基线分类器的提升。
Open‑source release – 数据集、代码和已训练的检查点已公开发布，鼓励可复现性和后续研究。

数据收集与标注 – 对英文、印地语和泰卢固语的社交媒体帖子进行仇恨言论标注。标注者还会突出显示每个标签对应的具体词元，形成词元级别的理由集合。
基线分类器 – 使用在三种语言上微调的标准 Transformer（例如 BERT‑base）作为起点。
基于扰动的 X‑MuTeST 解释 – 对每个输入，模型在屏蔽每个 unigram、bigram 和 trigram 后重新计算预测概率。置信度的下降程度表明该 n‑gram 的“重要性”。
LLM‑咨询的理由 – 通过外部 LLM（例如 GPT‑4）提示生成对预测的文字解释。提取 LLM 突出的词元。
解释的并集 – 最终的解释集合为扰动式词元与 LLM 派生词元的并集。
可解释性引导的训练 – 添加二次损失项，惩罚模型注意力分布与并集解释之间的差异，从而教会模型“关注”正确的词汇。
评估 – 可解释性指标将模型解释与人工理由进行对比；忠实度指标评估去除高亮词元是否真的改变预测。

Language	Baseline F1	X‑MuTeST‑enhanced F1	Token‑F1 (plausibility)	Comprehensiveness (faithfulness)
English	84.2%	87.6%	68.4% → 74.9%	0.42 → 0.31 (lower = better)
Hindi	78.9%	82.3%	61.1% → 68.2%	0.48 → 0.35
Telugu	76.5%	80.1%	59.3% → 66.7%	0.51 → 0.36

Source: …

未来方向包括：