AI 是否会有一天足够好,不需要支出限制?

发布: (2026年1月5日 GMT+8 22:00)
8 min read
原文: Dev.to

I’m happy to translate the article for you, but I don’t have the text of the post itself. Could you please paste the content you’d like translated (excluding the source link you’ve already provided)? Once I have the article text, I’ll translate it into Simplified Chinese while preserving the original formatting and markdown.

简短回答

不。 了解原因揭示了我们应如何思考 AI 安全的根本要点。

为论点进行钢人化

AI 能力正在快速提升:

  • 更好的对齐: 宪法 AI、RLHF 以及新训练技术让模型在遵循指令方面更可靠。
  • 更长的上下文: 模型现在可以容纳数百万个 token,减少“遗忘”指令的情况。
  • 形式化推理: 思维链和工具使用让代理更可预测。
  • 代理框架: LangChain、CrewAI 等为 LLM 决策提供结构。

鉴于这一趋势,为什么 AI 代理最终不会变得足够可信,以在没有外部政策强制的情况下处理金融交易?

核心问题

LLMs 天生是 概率性 的。它们根据统计模式预测下一个 token。即使是 99.99 % 可靠的模型,也会 每 10 000 次出错 1 次

  • 对于大多数应用,99.99 % 已经相当优秀。
  • 对于金融交易来说,这 远远不够

示例:交易代理

指标数值
每日交易量1 000
可靠性 (99.99 %)0.1 次预期故障/天
预计每月故障次数≈ 3
预计每年故障次数≈ 36

如果其中一次故障是“把全部余额发送到错误地址”,而不是轻微的格式错误,那么 尾部风险 将是灾难性的。

确定性策略(例如 if amount > dailyLimit then reject())的 故障率为 0 %。交易要么通过,要么被拒绝——不存在结果的统计分布。

这并不是说 AI “不好”。而是关于 概率确定性 系统之间的数学差异。

类比:汽车安全

汽车由于分层安全系统而变得极其安全:

层级示例
Crumple zones
Anti‑lock brakes
Electronic stability control
Autonomous emergency braking
Lane‑departure warnings

然而我们仍然有安全带、气囊和限速。每一层都处理不同的失效模式;事故的稀少并不意味着我们可以去除在事故发生时的防护。

Source:

AI 代理的分层架构

层级目的类型
训练 / RLHF使模型总体上安全概率性
系统提示为此使用场景引导行为概率性
代理框架添加结构和验证混合
策略层不可超越的硬性限制确定性

改进 第 1 层 并不能消除 第 4 层 的需求——它们的目的不同。

架构原则

做决定的系统不应同时控制安全护栏。

如果一个 AI 代理既决定 要花多少钱,又执行 花费上限,这些上限只在代理遵守时才有效。一次成功的提示注入、幻觉或训练数据中的边缘案例都可能绕过这些限制。

关注点分离

┌─────────────────┐     ┌─────────────────┐     ┌─────────────┐
│    AI 代理       │────▶│   策略层        │────▶│ 执行层      │
│ (做决定)        │     │ (执行)          │     │ (行动)      │
└─────────────────┘     └─────────────────┘     └─────────────┘
        │                       │
   概率性                  确定性
   可被输入影响            不受代理影响

策略层只检查:此交易是否符合规则? 是 → 继续。否 → 拒绝。它不关心 AI 的表现如何,是否被越狱,或是否产生了卓越的洞见。

人类类比

即使是受信任的人类也有支出限额。高级员工可能才华横溢且可靠,但他们仍然不能在未经批准的情况下汇出 $1 M。这些限额并非出于信任问题,而是因为:

  • 风险管理: 限制单一决策的冲击范围。
  • 合规性: 向审计员和监管机构展示控制措施。
  • 流程: 为高风险行动设立检查点。
  • 恢复: 确保错误能够在不可逆转之前被发现。

AI 代理也需要同样的约束——不是因为它们工作不佳,而是因为这正是任何系统中管理金融风险的方式。

监管现实

监管机构不接受“AI 现在真的很好”作为控制手段。诸如 SOC 2PCI‑DSS 和各种金融监管等标准要求 可展示、可审计的控制

  • 存在的限制是什么。
  • 如何强制执行。
  • 它们不能被绕过。
  • 决策的审计追踪。

策略引擎 提供所有这些。AI 代理的内部推理——无论多么复杂——都不能满足这些要求。

演进的政策

有一种隐含的假设认为“在 AI 进步的同时,政策层是静态的”。实际上,随着代理变得更强大,政策也会变得更为复杂

当下的政策

  • 每日支出上限。
  • 每笔交易上限。
  • 收款人白名单。

未来的政策(随着代理承担更复杂的任务)

  • 跨代理协作限制。
  • 投资组合分配约束。
  • 跨多资产的交易速度检测。
  • 基于市场情况的条件批准。

更强的 AI 意味着代理能够完成更多任务,这反过来需要更为复杂的防护措施,而不是更少。

底线

问题不在于 “AI 会足够好吗?” 而在于 “足够好是指什么?”

  • 用于做决策? AI 已经相当优秀,并且在不断提升。
  • 用于消除对独立安全控制的需求? 绝不。 这不是安全工程的运作方式。

概率系统需要确定性的防护措施,无论系统的可靠性是 90 % 还是 99.99 %。防护措施并不是对 AI 能力的评价——它们是对金融系统需要 数学确定性 而非仅仅统计置信度的认可。

它可以非常出色,但仍应设定支出上限。

准备为你的 AI 代理添加确定性的安全护栏吗?

  • 快速入门指南 – 5 分钟快速启动
  • GitHub – 开源 SDK
Back to Blog

相关文章

阅读更多 »