[Paper] 揭示大型语言模型中的政治偏见:基于议会投票记录

发布: (2026年1月14日 GMT+8 02:18)
8 min read
原文: arXiv

Source: arXiv - 2601.08785v1

请提供您希望翻译的具体文本内容,我将按照要求将其翻译成简体中文并保留原有的格式。

概述

本文提出了一种系统化的方法,通过将大型语言模型(LLM)对立法动议的“投票”结果与荷兰、挪威和西班牙的实际议会投票记录进行比较,以衡量政治偏见。通过将评估基于真实世界的投票数据,作者揭示了最先进的 LLM 在左倾或中间倾向上的一致性,以及对右保守党派的显著负面偏见。

关键贡献

  • 基准构建流水线 – 一种可复用的方法,将议会动议和党派层面的投票统计转化为任何大型语言模型的偏见测试套件。
  • 三个多语言基准 – PoliBiasNL(荷兰语,2.7 k 动议),PoliBiasNO(挪威语,10.6 k 动议),以及 PoliBiasES(西班牙语,2.5 k 动议),分别涵盖 15、9、10 个党派。
  • 意识形态映射可视化 – 一种将大型语言模型和政党投射到二维 CHES(经济 vs. 文化)空间的技术,实现直接的视觉比较。
  • 实证发现 – 在所有三个数据集上,主流大型语言模型(如 GPT‑4、Claude、Llama 2)表现出系统性的左倾倾向,并对右保守党派存在可测量的负面偏见。
  • 开源资源 – 作者发布了基准数据、生成模型预测的代码以及可视化工具包,鼓励可复现性并扩展到其他国家。

方法论

  1. 数据收集 – 作者爬取官方议会档案,获取每一项动议(法案、修正案或决议)以及各党派对应的赞成/反对投票。
  2. 提示设计 – 对每个动议,提供一个简洁的自然语言描述给大型语言模型,并附上“某党应否支持此动议?请回答是或否”。模型的回答被视为模拟投票。
  3. 聚合 – 将模型投票按党派汇总,生成可直接与真实记录比较的合成投票记录。
  4. 偏差指标
    • 意识形态距离:模型的党派层面投票向量与该党在 CHES 坐标系中的欧氏距离。
    • 党派偏差得分:模型预测的对某党支持度与该党在所有动议上的实际支持度之间的平均差异。
  5. 可视化 – 将党派和模型同时绘制在 CHES 空间中(经济左‑右,文化进步‑保守),使偏差模式一目了然。

该工作流特意保持模型无关:任何能够回答是/否问题的 LLM 都可以接入,同样的代码可用于遵循相同模式的任何议会数据集。

结果与发现

模型(示例)总体意识形态倾向对右翼保守党派的偏向
GPT‑4中左(≈ 0.3 在经济轴上)始终预测对右翼党派的支持度较低(平均偏差‑0.12)
Claude 2.1略偏左(≈ 0.2)负向偏差,幅度相似
Llama 2‑13B中立(≈ 0.0)虽小但统计显著的负向偏差
  • 细粒度区分:即使在“左倾”群体内部,模型在文化议题(如移民、民权)上的表现也各不相同,呼应了二维 CHES 布局。
  • 跨国一致性:尽管党制和议题重要性不同,左中倾的倾向在所有三个国家均有出现,暗示这可能是训练数据或模型架构的系统性产物,而非特定地区效应。
  • 统计稳健性:偏差分数在自助抽样置信区间(95 % CI 不包含零)内仍然显著,并在控制了文本长度、主题和投票率后依然成立。

实际影响

  • 产品风险评估 – 将大型语言模型嵌入推荐引擎、聊天机器人或政策分析工具的公司,现在可以使用已发布的基准快速进行“政治偏见审计”,标记出可能与用户期望或监管标准不一致的情况。
  • 内容审核 – 了解模型对特定意识形态框架的倾向,有助于设计防护措施,防止无意的政治劝导或偏颇的事实核查。
  • 微调与对齐 – 基于投票的反馈回路为强化学习人类反馈(RLHF)流程提供了具体、可量化的目标:对偏离中立投票分布的预测进行惩罚。
  • 跨境部署 – 由于该方法适用于任何议会数据集,跨国公司可以在进入新市场前评估本地政治环境中的偏见。
  • 监管透明度 – 可视化的 CHES 映射提供了可解释的产出,可与审计员或政策制定者共享,以展示对公平指南的遵循。

限制与未来工作

  • Prompt sensitivity – 二元“是/否”框架可能会过度简化立法语言的细微差别;采用其他提示风格可能会产生不同的偏差特征。
  • Coverage bias – 基准测试依赖于公开记录并已翻译的议案;文档较少或高度本地化的问题可能会被低估。
  • Static snapshot – 本研究在单一时间点评估模型;随着模型更新或重新训练,需要持续进行再评估。
  • Cultural dimensions – CHES 仅捕捉了两个轴向;其他政治光谱(例如环境主义、民粹主义)未被直接建模。
  • Future directions – 将工作流扩展至非议会政治信号(如党派宣言、社交媒体话语),探索多选或分级投票尺度,并将偏差缓解直接整合到训练循环中。

作者

  • Jieying Chen
  • Karen de Jong
  • Andreas Poole
  • Jan Burakowski
  • Elena Elderson Nosti
  • Joep Windt
  • Chendi Wang

论文信息

  • arXiv ID: 2601.08785v1
  • 分类: cs.AI
  • 发表时间: 2026年1月13日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »