[Paper] PolicyLLM:面向大型语言模型的公共政策卓越理解
发布: (2026年4月15日 GMT+8 01:27)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.12995v1
请提供您希望翻译的正文内容,我将按照要求保留源链接、格式和技术术语进行简体中文翻译。
概述
本文介绍了 PolicyBench,这是首个大规模基准,用于衡量大型语言模型(LLM)在美国和中国公共政策方面的理解和推理能力。基于该基准,作者还提出了 PolicyMoE,一种混合专家(Mixture‑of‑Experts,MoE)架构,将不同认知层次(记忆、理解、应用)的专门“专家”对齐。该工作揭示了当前 LLM 在处理真实世界政策问题时的不足,并提出了一条通向更可靠、具备政策感知的 AI 助手的具体路径。
关键贡献
- PolicyBench 数据集:21 千条精心策划的政策案例,覆盖 10 多个领域(健康、金融、环境等)以及两个地缘政治背景(美国和中国)。
- 基于 Bloom 分类学的三层评估:
- 记忆 – 对法规、条例和关键人物的事实性回忆。
- 理解 – 概念推理和情境解释。
- 应用 – 解决具体的政策驱动情景(例如合规检查、影响分析)。
- PolicyMoE 模型:一种 MoE 大语言模型,每个专家在对应 Bloom 层级的数据上进行微调,使系统能够将查询路由到最合适的专员。
- 全面分析:对多种最先进的大语言模型(GPT‑4、Claude、LLaMA‑2 等)在 PolicyBench 上的表现进行分析,揭示了高阶推理的系统性弱点。
- 开源发布:基准、评估脚本以及 PolicyMoE 检查点的开源,以促进社区研究。
方法论
- 数据收集与整理
- 从美国和中国官方政府门户网站提取政策文件、立法文本和监管指南。
- 邀请政策分析师为每个案例标注 Bloom‑level 标签,并编写多项选择题和开放式问题。
- 基准构建
- 将 21 K 案例划分为训练/验证/测试集,同时保持领域和司法管辖区的平衡。
- 设计了三种任务格式:事实回忆(多项选择)、概念解释(简答)和情境式问题解决(结构化推理)。
- PolicyMoE 架构
- 基于基础 LLM(LLaMA‑2‑13B)构建,并添加 四个专家模块:
- 记忆专家 – 在纯事实检索数据上进行微调。
- 理解专家 – 在概念问答上进行微调。
- 应用专家 – 在情境推理任务上进行微调。
- 通用专家 – 保留原始基础模型的能力。
- 轻量级 路由器 预测输入查询的 Bloom level,并将其转发至相应的专家。
- 基于基础 LLM(LLaMA‑2‑13B)构建,并添加 四个专家模块:
- 评估
- 对多项选择题测量准确率,对简答题使用 BLEU/ROUGE,对应用任务使用精确匹配/结构化推理得分。
- 将 PolicyMoE 与原始 LLM 以及单专家微调基线进行比较。
结果与发现
| 模型 | 记忆(准确率) | 理解(准确率) | 应用(准确率) |
|---|---|---|---|
| GPT‑4 (zero‑shot) | 92% | 78% | 61% |
| LLaMA‑2‑13B (fine‑tuned) | 88% | 71% | 55% |
| PolicyMoE (ours) | 90% | 77% | 71% |
| Single‑expert fine‑tune | 89% | 73% | 58% |
- PolicyMoE 在最难的“应用”层面缩小差距,在情景推理上比 GPT‑4 高出 10 个百分点。
- 所有模型在纯记忆任务上表现良好,证实大型语言模型已经编码了大量政策文本。
- 理解得分落后于记忆,表明模型在细微解释方面仍有困难(例如政策意图、权衡分析)。
- 错误分析显示常见的失败模式:误判司法管辖区、混淆相似法规,以及在情景问题中忽视隐含约束。
实际意义
- 合规助理:开发者可以将 PolicyMoE 嵌入到工具的后端,用于自动检查产品、服务或数据流水线是否符合相关法规(例如,中国与美国的 GDPR 类规则)。
- 政策起草支持:模型的“应用”专长可以生成初步影响评估或提出政策备选方案,加速立法研究工作流。
- 决策支持仪表盘:企业可以查询系统,获取政策变更(例如,新排放标准)的简明解释,并收到关于所需行动的结构化建议。
- 跨司法 AI 治理:由于基准覆盖了美国和中国的政策生态系统,该方法可以扩展到其他监管体制,帮助跨国公司使用单一 AI 服务在规则碎片化的环境中导航。
- 微调蓝图:MoE 路由策略提供了一种可复用的模式,适用于任务跨度从低层事实检索到高层问题解决的任何领域(例如,医疗指南、金融监管)。
限制与未来工作
- 司法范围:该基准目前聚焦于美国和中国;其他法律体系(欧盟、印度等)未被涵盖。
- 静态知识:政策文本变化迅速;模型未整合实时更新或检索增强机制。
- 可解释性:虽然 PolicyMoE 提升了性能,但每个专家的内部推理仍是黑箱;未来工作可结合链式思考提示或符号推理层。
- 评估多样性:当前任务主要是多项选择或简答;更丰富的交互式模拟(例如政策谈判游戏)可进一步对大型语言模型进行压力测试。
- MoE 可扩展性:增加更多专家以实现更细粒度(如行业特定专家)可能会提升延迟;需要研究更高效的路由或稀疏技术。
底线:PolicyBench 和 PolicyMoE 提供了首个具体的衡量标准和架构方案,用于构建能够超越单纯背诵法规的大型语言模型——它们能够以对构建合规、治理和决策支持系统的开发者有意义的方式进行政策推理。
作者
- Han Bao
- Penghao Zhang
- Yue Huang
- Zhengqing Yuan
- Yanchi Ru
- Rui Su
- Yujun Zhou
- Xiangqi Wang
- Kehan Guo
- Nitesh V Chawla
- Yanfang Ye
- Xiangliang Zhang
论文信息
- arXiv ID: 2604.12995v1
- 分类: cs.CL, cs.CY
- 出版日期: 2026年4月14日
- PDF: Download PDF