权威、边界与 AI 系统中的最终否决权

发布: 2周前 (2026年1月19日 GMT+8 09:46)

6 分钟阅读

原文: Dev.to

Source: Dev.to

请提供您希望翻译的正文内容，我将按照要求保留源链接并进行简体中文翻译。

为什么在没有明确权力结构的情况下可控性会崩溃

大多数关于 AI 控制的讨论聚焦于行为——系统输出什么、如何推理、是否遵循指令。然而，可控性并不是在行为层面失效的，而是在权威层面失效的。

系统即使行为正确，也可能不可控，因为没有人能明确回答一个问题：

当必须停止执行时，谁拥有最终决定权？

控制不是关于智能，而是关于权威。

在传统工程系统中，权威从不模糊：

一个过程要么被允许继续，要么不被允许。
一个事务要么提交，要么被拒绝。
一个操作要么通过验证，要么被终止。

然而，AI 系统常常在模糊的区域运行：

系统 “建议”。
人类 “审查”。
执行悄然继续。

这种模糊性不是灵活性，而是一种结构性风险。

仅在失败后才出现的边界并非真正的边界

许多 AI 系统声称“安全”，因为它们提供了：

事后解释
执行后的日志记录
监控仪表盘

这些机制在决策已经做出之后才启动。然而，控制是一种执行前的属性。如果边界仅在出现问题时才被强制执行，那么系统从一开始就没有受到控制。

可控系统必须知道何时需要停止，而不仅仅是事后如何解释自身。

缺失的概念：final veto

每个能够执行操作的系统都必须具备 final veto——这不是建议、置信分数或警告，而是在预定义条件被违反时能够决定性地终止执行的能力。

如果执行始终可以在不产生后果的情况下被覆盖，那么 veto 就不存在。

系统可以拒绝。系统不能拥有权力。

AI 系统可以拒绝执行，但拒绝并不授予权威。权威属于其他地方。

当系统被隐式视为决策权威时，会同时出现两种失败：

权力变得不可见。
责任变得无法追溯。

系统似乎在做决定，但无法识别出负责任的行为主体。这不是自主，而是放弃职责。

人类覆盖并非免费

一个在 AI 系统设计中常见的假设是：

“如果系统阻止执行，人类总是可以覆盖它。”

这忽略了一个关键要求：覆盖必须重新承担责任。如果人在系统拒绝后强行继续执行，则系统不再能够被视为安全、有效或正确性的保证者。

不存在合法的状态：

系统被覆盖，且
系统仍然隐含授权执行，同时
责任仍然模糊不清。

没有责任转移的覆盖是一种结构性的欺骗。

为什么这比模型准确性更重要

高度能力的模型会加剧这一问题。系统输出越令人信服，就越容易忘记权威从未被定义。强大的推理掩盖了薄弱的治理。

当权威不明确时，即使是正确的结果也会变得危险，因为系统无法在压力下安全地重复使用、扩展或被信任。

可控性需要明确的授权设计

可控的 AI 系统必须在 执行前 明确以下内容：

谁被允许继续。
在什么条件下必须停止执行。
如果继续执行，谁承担后果。
是否允许覆盖，以及代价是多少。

这些不是实现细节；它们是结构性承诺。没有它们，“控制”只是一种叙事，而不是属性。

Closing statement

AI 系统之所以失控，并不是因为它们过于强大，而是因为权威从未被明确分配。

一个能够行动却无法明确谁有决定权的系统并非自主——它是不安全的。

这将导致什么

Phase‑0 确立了合法性问题。
Phase‑1 确定了不可协商的原则。
Phase‑2 揭示了权威缺口。

👉 DEV · Phase‑3 — Why Automation Without Accountability Is Structurally Unsafe

该文章将通过阐述当系统在现实世界中运行且无人能够承担责任时会发生什么，来闭合整个循环。

权威、边界与 AI 系统中的最终否决权

为什么在没有明确权力结构的情况下可控性会崩溃

仅在失败后才出现的边界并非真正的边界

缺失的概念：final veto

系统可以拒绝。系统不能拥有权力。

人类覆盖并非免费

为什么这比模型准确性更重要

可控性需要明确的授权设计

Closing statement

这将导致什么

相关文章

结构放大：即使 AI 本意良好，它为何仍会失败

当智能觉醒时：人工意识、伦理设计与Abhishek Desikan的持续探询

机器学习中的数据投毒：人们为何以及如何操纵训练数据

一种几何方法用于在无需 LLM 判官的情况下识别幻觉