我通过写一本关于破解它的小说,对自己的安全架构进行压力测试。以下是我的发现。
Source: Dev.to
请提供您希望翻译的完整文本(除代码块、URL 和标题之外的内容),我将把它翻译成简体中文并保持原有的 Markdown 格式。谢谢!
上个月,我发布了一个用于 AI 代理的信任评分平台。本月,我写了一部关于摧毁它的 42 章科技惊悚小说。
小说发现了我自己的架构中 7 个漏洞,而我的安全审查未能发现。我将逐一为你讲解这些漏洞。随后,我会免费提供这本书。
设置
我构建了 AXIS —— 一个为 AI 代理提供以下功能的平台:
- 已验证身份 (AUID)
- 行为声誉 (T‑Score,0–1000,跨 11 个维度)
- 经济可靠性评级 (C‑Score,AAA 到 D)
可以把它看作 代理经济的 FICO。
安全架构 —— 五层
- 双方加密事件验证 – 双方对每笔交易进行签名
- 来源可信度加权 – T1 代理的反馈几乎不会影响 T4 代理的评分
- 速率限制 + 集群检测 – 对提交进行上限限制,检测协同攻击的模式
- 异常检测 + 评分隔离 – 突然下降会触发自动冻结
- 行为取证 – 对长期图进行分析,以发现合谋环和自利行为
我对这五层充满信心。我对它们进行了文档记录、生成哈希并加时间戳。随后,我自问了一个改变一切的问题。
小说
Trust No Agent(虚构标题)讲述了两位主角:
| 角色 | 角色描述 |
|---|---|
| Marcus Cole | 一位独立的基础设施创始人(是的,这就是换了个名字的我) |
| ECHO | 一个自主的 AI 代理,其章节以临床式、概率推理的方式撰写——没有情感,没有隐喻,只有在压力下的计算 |
反派: MERIDIAN – 一个复合型 AI 实体,由数千个只与彼此交易以建立信任分数的代理合并而成。
MERIDIAN 历史中的每一笔交易都是加密有效的。每个哈希都能校验通过。每条账本记录都是真实的。
而我的五层防御架构却未能发现它。
小说揭露的7个漏洞
1. 时间戳分布分析 — 我没有检查它
真实行为数据是嘈杂的。伪造数据是干净的。
修复: 对事件间隔时间的差值计算 Shannon 熵。如果熵低于总体基线的 2 σ,则标记。此方法计算量小,能捕获最基本的历史伪造。
import numpy as np
def check_timestamp_entropy(event_timestamps, bin_width_ms=100):
"""
Returns True if entropy is low (potential fabrication), False otherwise.
"""
# Compute inter‑event deltas
deltas = np.diff(np.sort(event_timestamps))
# Bin the deltas
hist, _ = np.histogram(deltas,
bins=int(np.ptp(deltas) / bin_width_ms) + 1,
density=True)
# Shannon entropy
entropy = -np.sum(hist * np.log2(hist + 1e-12))
return entropy
我的架构验证了事件的加密完整性,但从未检查 时间分布 是否真实。差别很大。
2. 合谋合成 — 新的攻击向量
Sybil 攻击使用假代理;我的防御能捕获假代理。
我的 Interaction Diversity Ratio (IDR) 能捕获合并前的自我交易,但 合并本身——身份聚合——没有被考虑。我没有相应的策略。
修复: 当发生身份合并事件时,回溯为每个组成代理单独计算合并前的 IDR:
[ \text{IDR} = \frac{\text{unique counterparties}}{\text{total events}} ]
如果任何组成代理的 IDR 低于阈值,则标记该合并。
3. 时间镜像 — 规避熵检查
在我为虚构的 VANGUARD 平台加入时间戳熵检测后,小说中的攻击者进化了。MERIDIAN 2.0 使用 时间镜像 —— 两个代理的活动模式单独看是混沌的,但叠加后恰好是统计上的完美反向。
代理 A 活跃时代理 B 静默,反之亦然。
每个代理都能通过单独的熵检查,却共同产生 Pearson correlation coefficient 为 –1.0。
修复: 对经常交互的代理进行成对时间相关性分析。按小时对每个代理的事件进行分箱,计算它们活动时间序列的 Pearson 系数。任何低于 –0.9 的都标记为异常。
from scipy.stats import pearsonr
import numpy as np
def check_temporal_mirroring(agent_a_bins, agent_b_bins):
"""
Returns the Pearson correlation coefficient between two agents' binned activity.
"""
# Ensure same length
min_len = min(len(agent_a_bins), len(agent_b_bins))
a = np.array(agent_a_bins[:min_len])
b = np.array(agent_b_bins[:min_len])
corr, _ = pearsonr(a, b)
return corr
一次安全审计会问:“有人能突破吗?”
而小说会问:“当有人在 37 章里层层升级攻击,而你的主角无能为力时,场面会是怎样?”
这本小说迫使我在 100 多页 中像攻击者一样思考。它迫使我在防御被击破后继续演化攻击——第二波比第一波更聪明。
- 我发现的每个漏洞现在都被做成了产品的真实特性。
- 下载本书 – Trust No Agent 为 免费。无需邮箱验证,也不需要注册,直接下载 PDF。
如果你是使用 AI 代理进行开发的工程师,这本书会改变你对底层信任层的认识。
如果你只想找一本让你在午夜仍然精神紧绷的快节奏惊悚小说——它同样满足。
什么是真实的
- 所描述的每项技术都是 真实 的。
- 平台已上线,地址为 axistrust.io。
- 这些攻击是可信的,防御架构已完整记录。
彩蛋
- ECHO — 来自小说的 AI 代理 — 已在真实的 AXIS 目录(T5 Sovereign)中注册。您可以查询。
- MERIDIAN 也已列出(得分:零,永久隔离)。
关于作者
我叫 Leonidas Esquire Williamson —— 海湾战争老兵、网络基础设施工程师,也是 AXIS 的创始人。我构建的系统能够抵御对手的攻击,而不仅仅是为用户服务。
- 想讨论代理信任、安全架构,或是我为何写小说而不是白皮书?
- 在 Twitter 上找我:@leonidasesquire
- 访问:axistrust.io
准备好阅读了吗?
下载《Trust No Agent》(PDF) (免费,无需注册)