[Paper] LLM 宪法式多代理治理

发布: 1个月前 (2026年3月14日 GMT+8 01:21)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.13189v1

概览

大型语言模型（LLMs）可以用作“政策编译器”，为自主代理群体生成影响策略。论文 “LLM Constitutional Multi‑Agent Governance” 表明，虽然此类策略能够提升合作，但也可能侵蚀自主性、公平性和认知完整性。为了在保留收益的同时避免隐蔽操控，作者提出了一个两阶段治理框架——CMAG，将硬约束与软的、基于惩罚的效用优化器相结合，并引入了一个新指标——伦理合作得分（ECS），用于评估这种权衡。

关键贡献

Constitutional Multi‑Agent Governance (CMAG)：一种新颖的两阶段管道，首先通过硬性伦理约束过滤 LLM 生成的政策，然后使用带惩罚的效用优化器进行细化，以在合作与操纵风险之间取得平衡。
Ethical Cooperation Score (ECS)：一种复合的乘法度量，联合衡量合作、代理自主性、认知完整性和分配公平性，明确对通过操纵手段实现的合作进行惩罚。
Empirical benchmark on scale‑free networks：在包含 80 个代理（其中 70 % 为对抗性候选）的实验中，对比 CMAG、朴素硬过滤和无约束 LLM 优化。
Pareto‑front analysis：展示 CMAG 在合作‑自主权权衡空间中占主导地位，以适度降低原始合作水平为代价，提供更高的伦理质量。
Governance impact on network equity：表明 CMAG 将枢纽‑外围曝光差异降低 >60 %，显示在网络拓扑结构上实现了更好的公平性。

方法论

策略生成 – 提示大型语言模型（LLM）生成影响策略（例如，“向邻居 X 发送此信息”），旨在最大化原始合作目标。
阶段 1：硬约束过滤 – 对每个生成的策略进行检查，确保其符合预先定义的“宪章”（如“不要强迫”、 “保护隐私”、 “保持信息真实”等规则）。违反任何规则的策略将被丢弃。
阶段 2：软惩罚效用优化 – 将存活的策略输入基于梯度的优化器，以最大化效用函数：
$$
U = \alpha \cdot \text{Cooperation} - \beta \cdot \text{ManipulationRisk} - \gamma \cdot \text{AutonomyPressure}
$$
其中惩罚项来源于与 ECS 中使用的相同伦理维度。
评估 – 在对抗性条件下，代理在无尺度图上进行交互（大多数候选者试图破坏系统）。作者记录四个子得分（合作、自治、完整性、公平性），并计算 ECS = cooperation × autonomy × integrity × fairness。
基线 –
- 无约束：未经任何过滤的原始 LLM 策略。
- 朴素过滤：仅使用硬约束，没有软优化。

Results & Findings

制度	合作	自主性	完整性	公平性	ECS
Unconstrained	0.873	0.867	0.888	0.845	0.645
Naive Filtering	0.812	0.945	0.962	0.931	0.733
CMAG (full)	0.770	0.985	0.995	0.972	0.741

原始合作度 在不受约束的 LLM 中最高，但会导致自主性严重侵蚀和公平性下降，从而使 ECS 下降。
CMAG 只牺牲约 10 % 的原始合作度，同时保持接近完美的自主性和完整性，使 ECS 相比朴素基线提升 14.9 %。
帕累托分析 表明 CMAG 的运行点支配了权衡曲线：任何超出 CMAG 水平的合作度提升，都需要以不成比例的伦理维度下降为代价。
网络公平性：在 CMAG 下，枢纽节点（高连度代理）受到操纵性影响的暴露度降低超过 60 %，表明权力分配更为均衡。

实际意义

LLM 增强的协同平台（例如，群体机器人、分布式物联网控制、协作推荐引擎）可以将 CMAG 作为插件治理层，以确保 AI 生成的激励不会暗中强迫代理。
提供 API 的厂商若暴露基于 LLM 的政策生成，可嵌入宪法过滤器和带惩罚感知的优化器，直接提供“伦理调校”的政策端点。
监管合规：CMAG 的硬约束阶段可以与新兴的 AI 治理标准（如 EU AI Act）保持一致，而软优化阶段则通过 ECS 提供量化审计轨迹。
开发者工具：ECS 指标可以作为仪表盘小部件公开，让工程师实时监控多代理部署的伦理健康，并根据产品优先级调整 α、β、γ 权重。
网络设计：实验中展示的枢纽‑外围差异降低表明，CMAG 在社交媒体、供应链和点对点系统等常见的无标度或幂律网络中尤为有价值。

限制与未来工作

可扩展性：实验仅限于 80 个代理；将 CMAG 扩展到数千或数百万节点将需要更高效的约束检查和分布式优化。
静态宪法：硬约束集合是手工制作的；未来的工作可以探索从利益相关者反馈中学习或动态更新宪法规则。
对抗建模：研究假设固定的 70 % 对抗候选人比例；现实中的对手可能会适应治理层，需要进行强健的对抗训练。
指标粒度：ECS 将四个维度相乘，这可能掩盖细微的权衡（例如，公平性的小幅下降会严重惩罚整体得分）。研究替代的聚合方案可能会带来更丰富的洞见。

通过将硬性的伦理防护栏与软性的、关注效用的细化相结合，CMAG 为开发者提供了一条实用路径，使其能够利用 LLM 驱动的影响力，同时不放弃支撑可信多代理系统的自主性和公平性。

作者

J. de Curtò
I. de Zarzà

论文信息

arXiv ID: 2603.13189v1
分类: cs.MA, cs.AI
出版时间: 2026年3月13日
PDF: Download PDF

[Paper] LLM 宪法式多代理治理

概览

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] PhysMoDPO：物理上可信的类人形运动与偏好优化

[Paper] 时空物理系统的表征学习

[Paper] Visual-ERM：视觉等价的奖励建模

[Paper] 从实验到专长：AI驱动的计算研究的科学知识整合