AI 是否会有一天足够好，不需要支出限制？

发布: 1个月前 (2026年1月5日 GMT+8 22:00)

8 分钟阅读

I’m happy to translate the article for you, but I don’t have the text of the post itself. Could you please paste the content you’d like translated (excluding the source link you’ve already provided)? Once I have the article text, I’ll translate it into Simplified Chinese while preserving the original formatting and markdown.

简短回答

不。了解原因揭示了我们应如何思考 AI 安全的根本要点。

为论点进行钢人化

AI 能力正在快速提升：

更好的对齐: 宪法 AI、RLHF 以及新训练技术让模型在遵循指令方面更可靠。
更长的上下文: 模型现在可以容纳数百万个 token，减少“遗忘”指令的情况。
形式化推理: 思维链和工具使用让代理更可预测。
代理框架: LangChain、CrewAI 等为 LLM 决策提供结构。

鉴于这一趋势，为什么 AI 代理最终不会变得足够可信，以在没有外部政策强制的情况下处理金融交易？

核心问题

LLMs 天生是 概率性 的。它们根据统计模式预测下一个 token。即使是 99.99 % 可靠的模型，也会 每 10 000 次出错 1 次。

对于大多数应用，99.99 % 已经相当优秀。
对于金融交易来说，这 远远不够。

示例：交易代理

指标	数值
每日交易量	1 000
可靠性 (99.99 %)	0.1 次预期故障/天
预计每月故障次数	≈ 3
预计每年故障次数	≈ 36

如果其中一次故障是“把全部余额发送到错误地址”，而不是轻微的格式错误，那么 尾部风险 将是灾难性的。

确定性策略（例如 if amount > dailyLimit then reject()）的 故障率为 0 %。交易要么通过，要么被拒绝——不存在结果的统计分布。

这并不是说 AI “不好”。而是关于概率与 确定性 系统之间的数学差异。

类比：汽车安全

汽车由于分层安全系统而变得极其安全：

层级	示例
Crumple zones	–
Anti‑lock brakes	–
Electronic stability control	–
Autonomous emergency braking	–
Lane‑departure warnings	–

然而我们仍然有安全带、气囊和限速。每一层都处理不同的失效模式；事故的稀少并不意味着我们可以去除在事故发生时的防护。

Source: …

AI 代理的分层架构

层级	目的	类型
训练 / RLHF	使模型总体上安全	概率性
系统提示	为此使用场景引导行为	概率性
代理框架	添加结构和验证	混合
策略层	不可超越的硬性限制	确定性

改进 第 1 层 并不能消除 第 4 层 的需求——它们的目的不同。

架构原则

做决定的系统不应同时控制安全护栏。

如果一个 AI 代理既决定 要花多少钱，又执行 花费上限，这些上限只在代理遵守时才有效。一次成功的提示注入、幻觉或训练数据中的边缘案例都可能绕过这些限制。

关注点分离

┌─────────────────┐     ┌─────────────────┐     ┌─────────────┐
│    AI 代理       │────▶│   策略层        │────▶│ 执行层      │
│ (做决定)        │     │ (执行)          │     │ (行动)      │
└─────────────────┘     └─────────────────┘     └─────────────┘
        │                       │
   概率性                  确定性
   可被输入影响            不受代理影响

策略层只检查：此交易是否符合规则？ 是 → 继续。否 → 拒绝。它不关心 AI 的表现如何，是否被越狱，或是否产生了卓越的洞见。

人类类比

即使是受信任的人类也有支出限额。高级员工可能才华横溢且可靠，但他们仍然不能在未经批准的情况下汇出 $1 M。这些限额并非出于信任问题，而是因为：

风险管理： 限制单一决策的冲击范围。
合规性： 向审计员和监管机构展示控制措施。
流程： 为高风险行动设立检查点。
恢复： 确保错误能够在不可逆转之前被发现。

AI 代理也需要同样的约束——不是因为它们工作不佳，而是因为这正是任何系统中管理金融风险的方式。

监管现实

监管机构不接受“AI 现在真的很好”作为控制手段。诸如 SOC 2、PCI‑DSS 和各种金融监管等标准要求 可展示、可审计的控制：

存在的限制是什么。
如何强制执行。
它们不能被绕过。
决策的审计追踪。

策略引擎 提供所有这些。AI 代理的内部推理——无论多么复杂——都不能满足这些要求。

演进的政策

有一种隐含的假设认为“在 AI 进步的同时，政策层是静态的”。实际上，随着代理变得更强大，政策也会变得更为复杂。

当下的政策

每日支出上限。
每笔交易上限。
收款人白名单。

未来的政策（随着代理承担更复杂的任务）

跨代理协作限制。
投资组合分配约束。
跨多资产的交易速度检测。
基于市场情况的条件批准。

更强的 AI 意味着代理能够完成更多任务，这反过来需要更为复杂的防护措施，而不是更少。

底线

问题不在于 “AI 会足够好吗？” 而在于 “足够好是指什么？”

用于做决策？ AI 已经相当优秀，并且在不断提升。
用于消除对独立安全控制的需求？ 绝不。 这不是安全工程的运作方式。

概率系统需要确定性的防护措施，无论系统的可靠性是 90 % 还是 99.99 %。防护措施并不是对 AI 能力的评价——它们是对金融系统需要 数学确定性 而非仅仅统计置信度的认可。

它可以非常出色，但仍应设定支出上限。

准备为你的 AI 代理添加确定性的安全护栏吗？

快速入门指南 – 5 分钟快速启动
GitHub – 开源 SDK