[Paper] LLM 宪法式多代理治理

发布: (2026年3月14日 GMT+8 01:21)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.13189v1

概览

大型语言模型(LLMs)可以用作“政策编译器”,为自主代理群体生成影响策略。论文 “LLM Constitutional Multi‑Agent Governance” 表明,虽然此类策略能够提升合作,但也可能侵蚀自主性、公平性和认知完整性。为了在保留收益的同时避免隐蔽操控,作者提出了一个两阶段治理框架——CMAG,将硬约束与软的、基于惩罚的效用优化器相结合,并引入了一个新指标——伦理合作得分(ECS),用于评估这种权衡。

关键贡献

  • Constitutional Multi‑Agent Governance (CMAG):一种新颖的两阶段管道,首先通过硬性伦理约束过滤 LLM 生成的政策,然后使用带惩罚的效用优化器进行细化,以在合作与操纵风险之间取得平衡。
  • Ethical Cooperation Score (ECS):一种复合的乘法度量,联合衡量合作、代理自主性、认知完整性和分配公平性,明确对通过操纵手段实现的合作进行惩罚。
  • Empirical benchmark on scale‑free networks:在包含 80 个代理(其中 70 % 为对抗性候选)的实验中,对比 CMAG、朴素硬过滤和无约束 LLM 优化。
  • Pareto‑front analysis:展示 CMAG 在合作‑自主权权衡空间中占主导地位,以适度降低原始合作水平为代价,提供更高的伦理质量。
  • Governance impact on network equity:表明 CMAG 将枢纽‑外围曝光差异降低 >60 %,显示在网络拓扑结构上实现了更好的公平性。

方法论

  1. 策略生成 – 提示大型语言模型(LLM)生成影响策略(例如,“向邻居 X 发送此信息”),旨在最大化原始合作目标。

  2. 阶段 1:硬约束过滤 – 对每个生成的策略进行检查,确保其符合预先定义的“宪章”(如“不要强迫”、 “保护隐私”、 “保持信息真实”等规则)。违反任何规则的策略将被丢弃。

  3. 阶段 2:软惩罚效用优化 – 将存活的策略输入基于梯度的优化器,以最大化效用函数:

    $$
    U = \alpha \cdot \text{Cooperation} - \beta \cdot \text{ManipulationRisk} - \gamma \cdot \text{AutonomyPressure}
    $$

    其中惩罚项来源于与 ECS 中使用的相同伦理维度。

  4. 评估 – 在对抗性条件下,代理在无尺度图上进行交互(大多数候选者试图破坏系统)。作者记录四个子得分(合作、自治、完整性、公平性),并计算 ECS = cooperation × autonomy × integrity × fairness

  5. 基线

    • 无约束:未经任何过滤的原始 LLM 策略。
    • 朴素过滤:仅使用硬约束,没有软优化。

Results & Findings

制度合作自主性完整性公平性ECS
Unconstrained0.8730.8670.8880.8450.645
Naive Filtering0.8120.9450.9620.9310.733
CMAG (full)0.7700.9850.9950.9720.741
  • 原始合作度 在不受约束的 LLM 中最高,但会导致自主性严重侵蚀和公平性下降,从而使 ECS 下降。
  • CMAG 只牺牲约 10 % 的原始合作度,同时保持接近完美的自主性和完整性,使 ECS 相比朴素基线提升 14.9 %
  • 帕累托分析 表明 CMAG 的运行点支配了权衡曲线:任何超出 CMAG 水平的合作度提升,都需要以不成比例的伦理维度下降为代价。
  • 网络公平性:在 CMAG 下,枢纽节点(高连度代理)受到操纵性影响的暴露度降低超过 60 %,表明权力分配更为均衡。

实际意义

  • LLM 增强的协同平台(例如,群体机器人、分布式物联网控制、协作推荐引擎)可以将 CMAG 作为插件治理层,以确保 AI 生成的激励不会暗中强迫代理。
  • 提供 API 的厂商若暴露基于 LLM 的政策生成,可嵌入宪法过滤器和带惩罚感知的优化器,直接提供“伦理调校”的政策端点。
  • 监管合规:CMAG 的硬约束阶段可以与新兴的 AI 治理标准(如 EU AI Act)保持一致,而软优化阶段则通过 ECS 提供量化审计轨迹。
  • 开发者工具:ECS 指标可以作为仪表盘小部件公开,让工程师实时监控多代理部署的伦理健康,并根据产品优先级调整 α、β、γ 权重。
  • 网络设计:实验中展示的枢纽‑外围差异降低表明,CMAG 在社交媒体、供应链和点对点系统等常见的无标度或幂律网络中尤为有价值。

限制与未来工作

  • 可扩展性:实验仅限于 80 个代理;将 CMAG 扩展到数千或数百万节点将需要更高效的约束检查和分布式优化。
  • 静态宪法:硬约束集合是手工制作的;未来的工作可以探索从利益相关者反馈中学习或动态更新宪法规则。
  • 对抗建模:研究假设固定的 70 % 对抗候选人比例;现实中的对手可能会适应治理层,需要进行强健的对抗训练。
  • 指标粒度:ECS 将四个维度相乘,这可能掩盖细微的权衡(例如,公平性的小幅下降会严重惩罚整体得分)。研究替代的聚合方案可能会带来更丰富的洞见。

通过将硬性的伦理防护栏与软性的、关注效用的细化相结合,CMAG 为开发者提供了一条实用路径,使其能够利用 LLM 驱动的影响力,同时不放弃支撑可信多代理系统的自主性和公平性。

作者

  • J. de Curtò
  • I. de Zarzà

论文信息

  • arXiv ID: 2603.13189v1
  • 分类: cs.MA, cs.AI
  • 出版时间: 2026年3月13日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »