我正在为 AI 系统构建确定性策略防火墙 — 寻求技术反馈

发布: (2025年12月25日 GMT+8 13:58)
2 分钟阅读
原文: Dev.to

Source: Dev.to

概览

我一直在构建一个小而有主见的系统,想要得到在受监管或高风险环境中处理 AI 的人的技术反馈。

核心思路

  • AI 系统可以提出行动。
  • 必须有其他东西来决定这些行动是否被允许执行。

该项目并非关于完美“理解意图”。意图规范化是有意进行的有损处理(正则 / LLM / 上游系统)。

不变量是一个确定性的策略层,能够:

  • 阻止不安全或非法的执行
  • 在输入模糊时关闭失败
  • 生成防篡改的审计日志

可以把它看作是 AI 代理的执行防火墙或控制平面。

已测试场景

  • 金融科技 – 贷款批准、反洗钱(AML)式约束
  • 健康科技 – 处方安全、受控药物、孕期限制
  • 法律 – 并购、反垄断阈值
  • 其他 – 保险、电子商务、政府场景,包括非结构化自然语言输入

这仍处于早期阶段,且故意保守。误报会被升级处理;误漏是不可接受的。

仓库

Intent‑Engine‑Api on GitHub

征求的反馈

寻求产品层面的反馈——主要是架构批评:

  • 这套系统在哪些方面会失效?
  • 如果你要部署它,会提出哪些质疑?
  • 在执行边界上还有哪些缺失?

如有需要,我可以进一步说明假设。

Back to Blog

相关文章

阅读更多 »