我正在为 AI 系统构建确定性策略防火墙 — 寻求技术反馈
发布: (2025年12月25日 GMT+8 13:58)
2 分钟阅读
原文: Dev.to
Source: Dev.to
概览
我一直在构建一个小而有主见的系统,想要得到在受监管或高风险环境中处理 AI 的人的技术反馈。
核心思路
- AI 系统可以提出行动。
- 必须有其他东西来决定这些行动是否被允许执行。
该项目并非关于完美“理解意图”。意图规范化是有意进行的有损处理(正则 / LLM / 上游系统)。
不变量是一个确定性的策略层,能够:
- 阻止不安全或非法的执行
- 在输入模糊时关闭失败
- 生成防篡改的审计日志
可以把它看作是 AI 代理的执行防火墙或控制平面。
已测试场景
- 金融科技 – 贷款批准、反洗钱(AML)式约束
- 健康科技 – 处方安全、受控药物、孕期限制
- 法律 – 并购、反垄断阈值
- 其他 – 保险、电子商务、政府场景,包括非结构化自然语言输入
这仍处于早期阶段,且故意保守。误报会被升级处理;误漏是不可接受的。
仓库
征求的反馈
我不寻求产品层面的反馈——主要是架构批评:
- 这套系统在哪些方面会失效?
- 如果你要部署它,会提出哪些质疑?
- 在执行边界上还有哪些缺失?
如有需要,我可以进一步说明假设。