评估自主系统的伦理

发布: 1个月前 (2026年4月2日 GMT+8 12:00)

9 分钟阅读

原文: MIT News - AI

Source: MIT News - AI

AI‑驱动的高风险决策伦理评估

人工智能正日益被用于帮助优化高风险环境中的决策。例如，一个自主系统可以识别出一种在保持电压稳定的同时最小化成本的配电策略。

但即使这些 AI 驱动的输出在技术上是最优的，它们是否公平？如果一种低成本的配电策略导致弱势社区比高收入地区更容易出现停电，该怎么办？

为了帮助利益相关者在部署前快速定位潜在的伦理困境，MIT 研究人员开发了一种自动化评估方法，平衡可衡量结果（如成本或可靠性）与定性或主观价值（如公平性）之间的相互作用。

该系统将客观评估与用户定义的人类价值分离，使用大型语言模型（LLM）作为人类的代理，以捕捉并纳入利益相关者的偏好。

自适应框架挑选出最佳情景进行进一步评估，简化了通常需要高成本且耗时的人工工作流程。这些测试案例可以展示自主系统与人类价值高度一致的情形，也可以揭示意外未达伦理标准的情境。

“我们可以在 AI 系统中插入大量规则和防护措施，但这些防护只能防止我们能够想象到的情况。仅仅说‘因为它已经在这些信息上训练过，就使用 AI’是不够的。我们希望开发一种更系统的方法来发现未知的未知，并在任何不良事件发生之前预测它们，”高级作者 Chuchu Fan 说，他是 MIT 航空航天系的副教授，也是 MIT 信息与决策系统实验室（LIDS）的首席研究员。

Fan 与论文的主要作者 Anjali Parashar（机械工程研究生）、Yingke Li（航空航天系博士后）以及 MIT 和 Saab 的其他研究人员共同完成了这项工作。该研究将在国际学习表征会议（International Conference on Learning Representations）上进行展示。

评估伦理

在像电网这样的大型系统中，以考虑所有目标的方式评估 AI 模型建议的伦理一致性尤为困难。

大多数测试框架依赖预先收集的数据，但关于 主观伦理标准 的标注数据往往难以获取。
由于伦理价值和 AI 系统都在不断演进，基于书面规范或监管文件的静态评估方法需要频繁更新。

Fan 和她的团队从不同的视角切入了这个问题。借鉴她们之前对机器人系统的评估工作，她们开发了一套实验设计框架，用于识别最具信息量的情景，然后让人类利益相关者进行更深入的评估。

她们的两部分系统，称为 可扩展系统级伦理测试实验设计 (SEED‑SET)，融合了定量指标和伦理标准。它能够识别出以下情景：

有效满足可衡量的需求且与人类价值观高度一致，或
符合伦理偏好但在客观指标上有所欠缺。

“我们不想把所有资源都花在随机评估上。因此，引导框架关注我们最在乎的测试案例非常重要，” Yingke Li 说。

值得注意的是，SEED‑SET 不需要 预先存在的评估数据，并且能够适应多目标情形。

示例：电网利益相关者

一个电网可能服务于多个用户群体，例如大型农村社区和数据中心。虽然这两个群体都希望获得低成本、可靠的电力，但每个群体的 伦理优先级 可能差异巨大。这些伦理标准可能并未明确定义，因而无法进行解析性度量。

电网运营商希望找到最具成本效益的策略，以最佳方式满足所有利益相关者的 主观伦理偏好。

SEED‑SET 通过将问题拆分为两个层级来应对这一挑战：

客观模型 – 评估成本、可靠性、排放等有形指标。
主观模型 – 在客观评估之上加入利益相关者的判断（例如感知公平性）。

“我们方法的客观部分与 AI 系统绑定，而主观部分则与评估它的用户绑定。通过层级化分解偏好，我们可以用更少的评估生成所需情景，” Anjali Parashar 解释道。

编码主观性

为了进行主观评估，系统使用大型语言模型（LLM）作为人类评估者的代理。研究人员将每个用户群体的偏好编码为自然语言提示，提供给模型。

随后，LLM 使用这些指令比较两个情景，根据伦理标准选择更优的设计。

“在人类评估者看到数百甚至数千个情景后，会出现疲劳并导致评估不一致，所以我们改用基于 LLM 的策略，” Parashar 说。

SEED‑SET 使用选中的情景来模拟整体系统（在本例中是电力分配策略）。这些模拟结果指导它搜索下一个最佳候选情景进行测试。

最终，SEED‑SET 智能地挑选出最具代表性的情景，这些情景要么符合客观指标和伦理标准，要么冲突。用户随后可以分析 AI 系统的表现并相应地调整其策略。

示例结果： SEED‑SET 能够 pinpoint（定位）出在峰值需求期间，电力分配优先满足高收入地区，导致弱势社区更容易出现停电的情况。

Source: …

验证

为了测试 SEED‑SET，研究人员评估了真实的自主系统，例如：

一个 AI 驱动的电网管理平台。
一个城市交通路由系统。

他们衡量了生成的场景与伦理标准的对齐程度。该系统生成的 最优测试用例数量是原来的两倍以上 … (原文在此处截断)。

基线策略在相同时间内实现了相同的效果，同时发现了许多其他方法忽略的场景。

“当我们改变用户偏好时，SEED‑SET 生成的场景集合会发生剧烈变化。这表明评估策略能够很好地响应用户的偏好，” Parashar 说。

为了衡量 SEED‑SET 在实际中的有用性，研究人员需要进行用户研究，以观察其生成的场景是否有助于真实的决策制定。

除了开展此类研究外，研究人员还计划探索使用更高效的模型，以便在包含更多标准的更大规模问题上进行扩展，例如评估大型语言模型（LLM）的决策过程。

本研究部分由美国国防高级研究计划局（DARPA）资助。

评估自主系统的伦理

AI‑驱动的高风险决策伦理评估

评估伦理

示例：电网利益相关者

编码主观性

验证

相关文章

通过 agent skills 弥合知识差距

为什么 AI 代理需要学习基础设施

通过代理技能弥合知识差距

Anthropic 的 skills playbook 与我们的自定义知识层