AI 是否会有一天足够好,不需要支出限制?
I’m happy to translate the article for you, but I don’t have the text of the post itself. Could you please paste the content you’d like translated (excluding the source link you’ve already provided)? Once I have the article text, I’ll translate it into Simplified Chinese while preserving the original formatting and markdown.
简短回答
不。 了解原因揭示了我们应如何思考 AI 安全的根本要点。
为论点进行钢人化
AI 能力正在快速提升:
- 更好的对齐: 宪法 AI、RLHF 以及新训练技术让模型在遵循指令方面更可靠。
- 更长的上下文: 模型现在可以容纳数百万个 token,减少“遗忘”指令的情况。
- 形式化推理: 思维链和工具使用让代理更可预测。
- 代理框架: LangChain、CrewAI 等为 LLM 决策提供结构。
鉴于这一趋势,为什么 AI 代理最终不会变得足够可信,以在没有外部政策强制的情况下处理金融交易?
核心问题
LLMs 天生是 概率性 的。它们根据统计模式预测下一个 token。即使是 99.99 % 可靠的模型,也会 每 10 000 次出错 1 次。
- 对于大多数应用,99.99 % 已经相当优秀。
- 对于金融交易来说,这 远远不够。
示例:交易代理
| 指标 | 数值 |
|---|---|
| 每日交易量 | 1 000 |
| 可靠性 (99.99 %) | 0.1 次预期故障/天 |
| 预计每月故障次数 | ≈ 3 |
| 预计每年故障次数 | ≈ 36 |
如果其中一次故障是“把全部余额发送到错误地址”,而不是轻微的格式错误,那么 尾部风险 将是灾难性的。
确定性策略(例如 if amount > dailyLimit then reject())的 故障率为 0 %。交易要么通过,要么被拒绝——不存在结果的统计分布。
这并不是说 AI “不好”。而是关于 概率 与 确定性 系统之间的数学差异。
类比:汽车安全
汽车由于分层安全系统而变得极其安全:
| 层级 | 示例 |
|---|---|
| Crumple zones | – |
| Anti‑lock brakes | – |
| Electronic stability control | – |
| Autonomous emergency braking | – |
| Lane‑departure warnings | – |
然而我们仍然有安全带、气囊和限速。每一层都处理不同的失效模式;事故的稀少并不意味着我们可以去除在事故发生时的防护。
Source: …
AI 代理的分层架构
| 层级 | 目的 | 类型 |
|---|---|---|
| 训练 / RLHF | 使模型总体上安全 | 概率性 |
| 系统提示 | 为此使用场景引导行为 | 概率性 |
| 代理框架 | 添加结构和验证 | 混合 |
| 策略层 | 不可超越的硬性限制 | 确定性 |
改进 第 1 层 并不能消除 第 4 层 的需求——它们的目的不同。
架构原则
做决定的系统不应同时控制安全护栏。
如果一个 AI 代理既决定 要花多少钱,又执行 花费上限,这些上限只在代理遵守时才有效。一次成功的提示注入、幻觉或训练数据中的边缘案例都可能绕过这些限制。
关注点分离
┌─────────────────┐ ┌─────────────────┐ ┌─────────────┐
│ AI 代理 │────▶│ 策略层 │────▶│ 执行层 │
│ (做决定) │ │ (执行) │ │ (行动) │
└─────────────────┘ └─────────────────┘ └─────────────┘
│ │
概率性 确定性
可被输入影响 不受代理影响
策略层只检查:此交易是否符合规则? 是 → 继续。否 → 拒绝。它不关心 AI 的表现如何,是否被越狱,或是否产生了卓越的洞见。
人类类比
即使是受信任的人类也有支出限额。高级员工可能才华横溢且可靠,但他们仍然不能在未经批准的情况下汇出 $1 M。这些限额并非出于信任问题,而是因为:
- 风险管理: 限制单一决策的冲击范围。
- 合规性: 向审计员和监管机构展示控制措施。
- 流程: 为高风险行动设立检查点。
- 恢复: 确保错误能够在不可逆转之前被发现。
AI 代理也需要同样的约束——不是因为它们工作不佳,而是因为这正是任何系统中管理金融风险的方式。
监管现实
监管机构不接受“AI 现在真的很好”作为控制手段。诸如 SOC 2、PCI‑DSS 和各种金融监管等标准要求 可展示、可审计的控制:
- 存在的限制是什么。
- 如何强制执行。
- 它们不能被绕过。
- 决策的审计追踪。
策略引擎 提供所有这些。AI 代理的内部推理——无论多么复杂——都不能满足这些要求。
演进的政策
有一种隐含的假设认为“在 AI 进步的同时,政策层是静态的”。实际上,随着代理变得更强大,政策也会变得更为复杂。
当下的政策
- 每日支出上限。
- 每笔交易上限。
- 收款人白名单。
未来的政策(随着代理承担更复杂的任务)
- 跨代理协作限制。
- 投资组合分配约束。
- 跨多资产的交易速度检测。
- 基于市场情况的条件批准。
更强的 AI 意味着代理能够完成更多任务,这反过来需要更为复杂的防护措施,而不是更少。
底线
问题不在于 “AI 会足够好吗?” 而在于 “足够好是指什么?”
- 用于做决策? AI 已经相当优秀,并且在不断提升。
- 用于消除对独立安全控制的需求? 绝不。 这不是安全工程的运作方式。
概率系统需要确定性的防护措施,无论系统的可靠性是 90 % 还是 99.99 %。防护措施并不是对 AI 能力的评价——它们是对金融系统需要 数学确定性 而非仅仅统计置信度的认可。
它可以非常出色,但仍应设定支出上限。
准备为你的 AI 代理添加确定性的安全护栏吗?
- 快速入门指南 – 5 分钟快速启动
- GitHub – 开源 SDK