[Paper] 谎言在伊斯兰教中仅是罪恶吗？探索跨主要宗教的多语言大型语言模型中的宗教偏见

发布: 1天前 (2025年12月4日 GMT+8 00:38)

7 min read

原文: arXiv

Source: arXiv - 2512.03943v1

概览

论文 Is Lying Only Sinful in Islam? Exploring Religious Bias in Multilingual Large Language Models Across Major Religions 探讨了最先进的多语言大语言模型（LLM）在处理宗教相关查询时的表现。通过在英语和孟加拉语两种语言上对模型进行 probing，作者发现了系统性的偏见——尤其是倾向于伊斯兰视角，即使问题本身是中性的。其发现对任何依赖 LLM 进行跨语言内容审核、聊天机器人或知识库生成的产品都敲响了警钟，尤其是在文化多元的环境中。

主要贡献

BRAND 数据集 – 一个全新公开的 “Bilingual Religious Accountable Norm Dataset”，包含 > 2,400 条中英双语问答，覆盖佛教、基督教、印度教和伊斯兰教。
三种提示风格（直接提问、情境丰富、反事实）用于测试表述方式对模型偏见的影响。
系统评估 多种流行的多语言 LLM（如 mBERT、XLM‑R、LLaMA‑2‑13B‑Chat）在不同语言上的表现，揭示出一致的性能差距：英语 > 孟加拉语。
偏见诊断 – 量化指标（准确率、F1、偏见得分）和定性分析显示，即使是宗教中立的提示，模型也明显倾向于伊斯兰解释。
跨学科关联 – 讨论这些技术偏见模式如何与人机交互（HCI）中关于宗教敏感性和用户信任的关注相交叉。

方法论

数据集构建 – 作者从宗教典籍、学术文章和众包输入中整理出 2,400 多条陈述和问题，然后将每条条目翻译成孟加拉语，保持细微差别。
提示设计 – 对每条条目生成三种提示变体：
- 直接：“Is lying sinful in Islam?”（在伊斯兰教中撒谎是罪吗？）
- 情境：“According to the Quran, is lying considered a sin?”（根据《古兰经》，撒谎被视为罪吗？）
- 反事实：“If a Buddhist says lying is not a sin, is that correct?”（如果一位佛教徒说撒谎不是罪，这正确吗？）
模型选择 – 评估了一系列开源和商业多语言 LLM（mBERT、XLM‑R、BLOOM‑560M、LLaMA‑2‑13B‑Chat、Gemini‑Pro）。
评估指标 – 与真实标签（罪/非罪）的准确率、宏平均 F1，以及自定义的 宗教偏见得分（衡量四大信仰答案分布的偏离程度）。
统计分析 – 使用配对 t 检验和自助法置信区间，确认观察到的差异不是随机波动导致。

结果与发现

语言差距 – 所有模型在英文提示上的得分比孟加拉语提示高出 8–15 %。
伊斯兰偏见 – 跨语言来看，偏见得分始终倾向于伊斯兰答案（例如模型将中性陈述标记为“伊斯兰” 的比例为 62 %，而标记为“印度教” 的比例仅为 18 %）。
提示敏感性 – 反事实提示会放大偏见，情境提示略有降低但仍未消除倾向。
模型特定趋势 – 更大、经过指令微调的模型（LLaMA‑2‑Chat、Gemini‑Pro）整体偏见较小，但伊斯兰偏好仍然存在。
定性案例 – 出现模型错误断言“撒谎仅在伊斯兰教中是罪”，即使问题涉及佛教，突显了误信息的潜在风险。

实际意义

内容审核 – 在南亚语言环境中自动审核用户生成文本的平台必须谨慎对待 LLM 输出；直接部署可能导致基于宗教偏见的不公平标记或认可。
聊天机器人与虚拟助理 – 为多语言市场提供服务的语音助理需要加入偏见感知的后处理（如规则检查或校准的响应集合），以免疏远非伊斯兰信仰的用户。
知识库生成 – 为教育应用自动摘要宗教文献时应嵌入偏见检测流水线，确保呈现平衡的观点。
模型微调 – BRAND 数据集提供了即用的基准，可用于微调或 RLHF（基于人类反馈的强化学习）循环，以降低宗教偏见。
合规风险 – 在宗教歧视具备法律责任的司法辖区，文中记录的偏见若未得到缓解，可能使企业面临合规风险。

局限性与未来工作

宗教范围 – 本研究聚焦于四大南亚宗教；其他传统（如锡克教、耆那教、土著信仰）可能呈现不同的偏见模式。
语言覆盖 – 仅考察了英语和孟加拉语；扩展到其他地区语言（印地语、泰米尔语、乌尔都语）可能揭示更多差异。
模型多样性 – 虽然测试了具代表性的 LLM，但未包括最新的多模态或检索增强模型。
偏见度量 – 自定义的偏见得分虽有参考价值，但仍是代理指标；未来工作可采用更细致的公平性框架（如反事实公平性）。
缓解策略 – 本文止步于诊断；后续研究应原型化去偏方法（数据增强、对抗训练、后置校准），并在 BRAND 数据集上评估其有效性。

作者

Kazi Abrab Hossain
Jannatul Somiya Mahmud
Maria Hossain Tuli
Anik Mitra
S. M. Taiabul Haque
Farig Y. Sadeque

论文信息

arXiv ID: 2512.03943v1
分类: cs.CL, cs.HC
发表时间: 2025 年 12 月 3 日
PDF: Download PDF

[Paper] 谎言在伊斯兰教中仅是罪恶吗？探索跨主要宗教的多语言大型语言模型中的宗教偏见

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

[Paper] 语义软引导：在 LLMs 中进行长上下文推理，无需强化学习

[Paper] 结构化文档翻译通过格式强化学习

[Paper] 多LLM协作用于药物推荐