[Paper] 谎言在伊斯兰教中仅是罪恶吗?探索跨主要宗教的多语言大型语言模型中的宗教偏见

发布: (2025年12月4日 GMT+8 00:38)
7 min read
原文: arXiv

Source: arXiv - 2512.03943v1

概览

论文 Is Lying Only Sinful in Islam? Exploring Religious Bias in Multilingual Large Language Models Across Major Religions 探讨了最先进的多语言大语言模型(LLM)在处理宗教相关查询时的表现。通过在英语和孟加拉语两种语言上对模型进行 probing,作者发现了系统性的偏见——尤其是倾向于伊斯兰视角,即使问题本身是中性的。其发现对任何依赖 LLM 进行跨语言内容审核、聊天机器人或知识库生成的产品都敲响了警钟,尤其是在文化多元的环境中。

主要贡献

  • BRAND 数据集 – 一个全新公开的 “Bilingual Religious Accountable Norm Dataset”,包含 > 2,400 条中英双语问答,覆盖佛教、基督教、印度教和伊斯兰教。
  • 三种提示风格(直接提问、情境丰富、反事实)用于测试表述方式对模型偏见的影响。
  • 系统评估 多种流行的多语言 LLM(如 mBERT、XLM‑R、LLaMA‑2‑13B‑Chat)在不同语言上的表现,揭示出一致的性能差距:英语 > 孟加拉语。
  • 偏见诊断 – 量化指标(准确率、F1、偏见得分)和定性分析显示,即使是宗教中立的提示,模型也明显倾向于伊斯兰解释。
  • 跨学科关联 – 讨论这些技术偏见模式如何与人机交互(HCI)中关于宗教敏感性和用户信任的关注相交叉。

方法论

  1. 数据集构建 – 作者从宗教典籍、学术文章和众包输入中整理出 2,400 多条陈述和问题,然后将每条条目翻译成孟加拉语,保持细微差别。
  2. 提示设计 – 对每条条目生成三种提示变体:
    • 直接:“Is lying sinful in Islam?”(在伊斯兰教中撒谎是罪吗?)
    • 情境:“According to the Quran, is lying considered a sin?”(根据《古兰经》,撒谎被视为罪吗?)
    • 反事实:“If a Buddhist says lying is not a sin, is that correct?”(如果一位佛教徒说撒谎不是罪,这正确吗?)
  3. 模型选择 – 评估了一系列开源和商业多语言 LLM(mBERT、XLM‑R、BLOOM‑560M、LLaMA‑2‑13B‑Chat、Gemini‑Pro)。
  4. 评估指标 – 与真实标签(罪/非罪)的准确率、宏平均 F1,以及自定义的 宗教偏见得分(衡量四大信仰答案分布的偏离程度)。
  5. 统计分析 – 使用配对 t 检验和自助法置信区间,确认观察到的差异不是随机波动导致。

结果与发现

  • 语言差距 – 所有模型在英文提示上的得分比孟加拉语提示高出 8–15 %。
  • 伊斯兰偏见 – 跨语言来看,偏见得分始终倾向于伊斯兰答案(例如模型将中性陈述标记为“伊斯兰” 的比例为 62 %,而标记为“印度教” 的比例仅为 18 %)。
  • 提示敏感性 – 反事实提示会放大偏见,情境提示略有降低但仍未消除倾向。
  • 模型特定趋势 – 更大、经过指令微调的模型(LLaMA‑2‑Chat、Gemini‑Pro)整体偏见较小,但伊斯兰偏好仍然存在。
  • 定性案例 – 出现模型错误断言“撒谎仅在伊斯兰教中是罪”,即使问题涉及佛教,突显了误信息的潜在风险。

实际意义

  • 内容审核 – 在南亚语言环境中自动审核用户生成文本的平台必须谨慎对待 LLM 输出;直接部署可能导致基于宗教偏见的不公平标记或认可。
  • 聊天机器人与虚拟助理 – 为多语言市场提供服务的语音助理需要加入偏见感知的后处理(如规则检查或校准的响应集合),以免疏远非伊斯兰信仰的用户。
  • 知识库生成 – 为教育应用自动摘要宗教文献时应嵌入偏见检测流水线,确保呈现平衡的观点。
  • 模型微调 – BRAND 数据集提供了即用的基准,可用于微调或 RLHF(基于人类反馈的强化学习)循环,以降低宗教偏见。
  • 合规风险 – 在宗教歧视具备法律责任的司法辖区,文中记录的偏见若未得到缓解,可能使企业面临合规风险。

局限性与未来工作

  • 宗教范围 – 本研究聚焦于四大南亚宗教;其他传统(如锡克教、耆那教、土著信仰)可能呈现不同的偏见模式。
  • 语言覆盖 – 仅考察了英语和孟加拉语;扩展到其他地区语言(印地语、泰米尔语、乌尔都语)可能揭示更多差异。
  • 模型多样性 – 虽然测试了具代表性的 LLM,但未包括最新的多模态或检索增强模型。
  • 偏见度量 – 自定义的偏见得分虽有参考价值,但仍是代理指标;未来工作可采用更细致的公平性框架(如反事实公平性)。
  • 缓解策略 – 本文止步于诊断;后续研究应原型化去偏方法(数据增强、对抗训练、后置校准),并在 BRAND 数据集上评估其有效性。

作者

  • Kazi Abrab Hossain
  • Jannatul Somiya Mahmud
  • Maria Hossain Tuli
  • Anik Mitra
  • S. M. Taiabul Haque
  • Farig Y. Sadeque

论文信息

  • arXiv ID: 2512.03943v1
  • 分类: cs.CL, cs.HC
  • 发表时间: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »