[Paper] PolicyLLM：面向大型语言模型的公共政策卓越理解

发布: 3周前 (2026年4月15日 GMT+8 01:27)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.12995v1

请提供您希望翻译的正文内容，我将按照要求保留源链接、格式和技术术语进行简体中文翻译。

概述

本文介绍了 PolicyBench，这是首个大规模基准，用于衡量大型语言模型（LLM）在美国和中国公共政策方面的理解和推理能力。基于该基准，作者还提出了 PolicyMoE，一种混合专家（Mixture‑of‑Experts，MoE）架构，将不同认知层次（记忆、理解、应用）的专门“专家”对齐。该工作揭示了当前 LLM 在处理真实世界政策问题时的不足，并提出了一条通向更可靠、具备政策感知的 AI 助手的具体路径。

关键贡献

PolicyBench 数据集：21 千条精心策划的政策案例，覆盖 10 多个领域（健康、金融、环境等）以及两个地缘政治背景（美国和中国）。
基于 Bloom 分类学的三层评估：
1. 记忆 – 对法规、条例和关键人物的事实性回忆。
2. 理解 – 概念推理和情境解释。
3. 应用 – 解决具体的政策驱动情景（例如合规检查、影响分析）。
PolicyMoE 模型：一种 MoE 大语言模型，每个专家在对应 Bloom 层级的数据上进行微调，使系统能够将查询路由到最合适的专员。
全面分析：对多种最先进的大语言模型（GPT‑4、Claude、LLaMA‑2 等）在 PolicyBench 上的表现进行分析，揭示了高阶推理的系统性弱点。
开源发布：基准、评估脚本以及 PolicyMoE 检查点的开源，以促进社区研究。

方法论

数据收集与整理
- 从美国和中国官方政府门户网站提取政策文件、立法文本和监管指南。
- 邀请政策分析师为每个案例标注 Bloom‑level 标签，并编写多项选择题和开放式问题。
基准构建
- 将 21 K 案例划分为训练/验证/测试集，同时保持领域和司法管辖区的平衡。
- 设计了三种任务格式：事实回忆（多项选择）、概念解释（简答）和情境式问题解决（结构化推理）。
PolicyMoE 架构
- 基于基础 LLM（LLaMA‑2‑13B）构建，并添加 四个专家模块：
  - 记忆专家 – 在纯事实检索数据上进行微调。
  - 理解专家 – 在概念问答上进行微调。
  - 应用专家 – 在情境推理任务上进行微调。
  - 通用专家 – 保留原始基础模型的能力。
- 轻量级 路由器 预测输入查询的 Bloom level，并将其转发至相应的专家。
评估
- 对多项选择题测量准确率，对简答题使用 BLEU/ROUGE，对应用任务使用精确匹配/结构化推理得分。
- 将 PolicyMoE 与原始 LLM 以及单专家微调基线进行比较。

结果与发现

模型	记忆（准确率）	理解（准确率）	应用（准确率）
GPT‑4 (zero‑shot)	92%	78%	61%
LLaMA‑2‑13B (fine‑tuned)	88%	71%	55%
PolicyMoE (ours)	90%	77%	71%
Single‑expert fine‑tune	89%	73%	58%

PolicyMoE 在最难的“应用”层面缩小差距，在情景推理上比 GPT‑4 高出 10 个百分点。
所有模型在纯记忆任务上表现良好，证实大型语言模型已经编码了大量政策文本。
理解得分落后于记忆，表明模型在细微解释方面仍有困难（例如政策意图、权衡分析）。
错误分析显示常见的失败模式：误判司法管辖区、混淆相似法规，以及在情景问题中忽视隐含约束。

实际意义

合规助理：开发者可以将 PolicyMoE 嵌入到工具的后端，用于自动检查产品、服务或数据流水线是否符合相关法规（例如，中国与美国的 GDPR 类规则）。
政策起草支持：模型的“应用”专长可以生成初步影响评估或提出政策备选方案，加速立法研究工作流。
决策支持仪表盘：企业可以查询系统，获取政策变更（例如，新排放标准）的简明解释，并收到关于所需行动的结构化建议。
跨司法 AI 治理：由于基准覆盖了美国和中国的政策生态系统，该方法可以扩展到其他监管体制，帮助跨国公司使用单一 AI 服务在规则碎片化的环境中导航。
微调蓝图：MoE 路由策略提供了一种可复用的模式，适用于任务跨度从低层事实检索到高层问题解决的任何领域（例如，医疗指南、金融监管）。

限制与未来工作

司法范围：该基准目前聚焦于美国和中国；其他法律体系（欧盟、印度等）未被涵盖。
静态知识：政策文本变化迅速；模型未整合实时更新或检索增强机制。
可解释性：虽然 PolicyMoE 提升了性能，但每个专家的内部推理仍是黑箱；未来工作可结合链式思考提示或符号推理层。
评估多样性：当前任务主要是多项选择或简答；更丰富的交互式模拟（例如政策谈判游戏）可进一步对大型语言模型进行压力测试。
MoE 可扩展性：增加更多专家以实现更细粒度（如行业特定专家）可能会提升延迟；需要研究更高效的路由或稀疏技术。

底线：PolicyBench 和 PolicyMoE 提供了首个具体的衡量标准和架构方案，用于构建能够超越单纯背诵法规的大型语言模型——它们能够以对构建合规、治理和决策支持系统的开发者有意义的方式进行政策推理。

作者

Han Bao
Penghao Zhang
Yue Huang
Zhengqing Yuan
Yanchi Ru
Rui Su
Yujun Zhou
Xiangqi Wang
Kehan Guo
Nitesh V Chawla
Yanfang Ye
Xiangliang Zhang

论文信息

arXiv ID: 2604.12995v1
分类: cs.CL, cs.CY
出版日期: 2026年4月14日
PDF: Download PDF

[Paper] PolicyLLM：面向大型语言模型的公共政策卓越理解

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] 没有普遍礼貌：跨语言、多模型研究礼貌对 LLMs 的影响（使用 PLUM Corpus）

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估