[Paper] LLM 宪法式多代理治理
Source: arXiv - 2603.13189v1
概览
大型语言模型(LLMs)可以用作“政策编译器”,为自主代理群体生成影响策略。论文 “LLM Constitutional Multi‑Agent Governance” 表明,虽然此类策略能够提升合作,但也可能侵蚀自主性、公平性和认知完整性。为了在保留收益的同时避免隐蔽操控,作者提出了一个两阶段治理框架——CMAG,将硬约束与软的、基于惩罚的效用优化器相结合,并引入了一个新指标——伦理合作得分(ECS),用于评估这种权衡。
关键贡献
- Constitutional Multi‑Agent Governance (CMAG):一种新颖的两阶段管道,首先通过硬性伦理约束过滤 LLM 生成的政策,然后使用带惩罚的效用优化器进行细化,以在合作与操纵风险之间取得平衡。
- Ethical Cooperation Score (ECS):一种复合的乘法度量,联合衡量合作、代理自主性、认知完整性和分配公平性,明确对通过操纵手段实现的合作进行惩罚。
- Empirical benchmark on scale‑free networks:在包含 80 个代理(其中 70 % 为对抗性候选)的实验中,对比 CMAG、朴素硬过滤和无约束 LLM 优化。
- Pareto‑front analysis:展示 CMAG 在合作‑自主权权衡空间中占主导地位,以适度降低原始合作水平为代价,提供更高的伦理质量。
- Governance impact on network equity:表明 CMAG 将枢纽‑外围曝光差异降低 >60 %,显示在网络拓扑结构上实现了更好的公平性。
方法论
策略生成 – 提示大型语言模型(LLM)生成影响策略(例如,“向邻居 X 发送此信息”),旨在最大化原始合作目标。
阶段 1:硬约束过滤 – 对每个生成的策略进行检查,确保其符合预先定义的“宪章”(如“不要强迫”、 “保护隐私”、 “保持信息真实”等规则)。违反任何规则的策略将被丢弃。
阶段 2:软惩罚效用优化 – 将存活的策略输入基于梯度的优化器,以最大化效用函数:
$$
U = \alpha \cdot \text{Cooperation} - \beta \cdot \text{ManipulationRisk} - \gamma \cdot \text{AutonomyPressure}
$$其中惩罚项来源于与 ECS 中使用的相同伦理维度。
评估 – 在对抗性条件下,代理在无尺度图上进行交互(大多数候选者试图破坏系统)。作者记录四个子得分(合作、自治、完整性、公平性),并计算 ECS = cooperation × autonomy × integrity × fairness。
基线 –
- 无约束:未经任何过滤的原始 LLM 策略。
- 朴素过滤:仅使用硬约束,没有软优化。
Results & Findings
| 制度 | 合作 | 自主性 | 完整性 | 公平性 | ECS |
|---|---|---|---|---|---|
| Unconstrained | 0.873 | 0.867 | 0.888 | 0.845 | 0.645 |
| Naive Filtering | 0.812 | 0.945 | 0.962 | 0.931 | 0.733 |
| CMAG (full) | 0.770 | 0.985 | 0.995 | 0.972 | 0.741 |
- 原始合作度 在不受约束的 LLM 中最高,但会导致自主性严重侵蚀和公平性下降,从而使 ECS 下降。
- CMAG 只牺牲约 10 % 的原始合作度,同时保持接近完美的自主性和完整性,使 ECS 相比朴素基线提升 14.9 %。
- 帕累托分析 表明 CMAG 的运行点支配了权衡曲线:任何超出 CMAG 水平的合作度提升,都需要以不成比例的伦理维度下降为代价。
- 网络公平性:在 CMAG 下,枢纽节点(高连度代理)受到操纵性影响的暴露度降低超过 60 %,表明权力分配更为均衡。
实际意义
- LLM 增强的协同平台(例如,群体机器人、分布式物联网控制、协作推荐引擎)可以将 CMAG 作为插件治理层,以确保 AI 生成的激励不会暗中强迫代理。
- 提供 API 的厂商若暴露基于 LLM 的政策生成,可嵌入宪法过滤器和带惩罚感知的优化器,直接提供“伦理调校”的政策端点。
- 监管合规:CMAG 的硬约束阶段可以与新兴的 AI 治理标准(如 EU AI Act)保持一致,而软优化阶段则通过 ECS 提供量化审计轨迹。
- 开发者工具:ECS 指标可以作为仪表盘小部件公开,让工程师实时监控多代理部署的伦理健康,并根据产品优先级调整 α、β、γ 权重。
- 网络设计:实验中展示的枢纽‑外围差异降低表明,CMAG 在社交媒体、供应链和点对点系统等常见的无标度或幂律网络中尤为有价值。
限制与未来工作
- 可扩展性:实验仅限于 80 个代理;将 CMAG 扩展到数千或数百万节点将需要更高效的约束检查和分布式优化。
- 静态宪法:硬约束集合是手工制作的;未来的工作可以探索从利益相关者反馈中学习或动态更新宪法规则。
- 对抗建模:研究假设固定的 70 % 对抗候选人比例;现实中的对手可能会适应治理层,需要进行强健的对抗训练。
- 指标粒度:ECS 将四个维度相乘,这可能掩盖细微的权衡(例如,公平性的小幅下降会严重惩罚整体得分)。研究替代的聚合方案可能会带来更丰富的洞见。
通过将硬性的伦理防护栏与软性的、关注效用的细化相结合,CMAG 为开发者提供了一条实用路径,使其能够利用 LLM 驱动的影响力,同时不放弃支撑可信多代理系统的自主性和公平性。
作者
- J. de Curtò
- I. de Zarzà
论文信息
- arXiv ID: 2603.13189v1
- 分类: cs.MA, cs.AI
- 出版时间: 2026年3月13日
- PDF: Download PDF