我通过写一本关于破解它的小说,对自己的安全架构进行压力测试。以下是我的发现。

发布: (2026年5月1日 GMT+8 13:02)
8 分钟阅读
原文: Dev.to

Source: Dev.to

请提供您希望翻译的完整文本(除代码块、URL 和标题之外的内容),我将把它翻译成简体中文并保持原有的 Markdown 格式。谢谢!

上个月,我发布了一个用于 AI 代理的信任评分平台。本月,我写了一部关于摧毁它的 42 章科技惊悚小说。

小说发现了我自己的架构中 7 个漏洞,而我的安全审查未能发现。我将逐一为你讲解这些漏洞。随后,我会免费提供这本书。

设置

我构建了 AXIS —— 一个为 AI 代理提供以下功能的平台:

  • 已验证身份 (AUID)
  • 行为声誉 (T‑Score,0–1000,跨 11 个维度)
  • 经济可靠性评级 (C‑Score,AAA 到 D)

可以把它看作 代理经济的 FICO

安全架构 —— 五层

  1. 双方加密事件验证 – 双方对每笔交易进行签名
  2. 来源可信度加权 – T1 代理的反馈几乎不会影响 T4 代理的评分
  3. 速率限制 + 集群检测 – 对提交进行上限限制,检测协同攻击的模式
  4. 异常检测 + 评分隔离 – 突然下降会触发自动冻结
  5. 行为取证 – 对长期图进行分析,以发现合谋环和自利行为

我对这五层充满信心。我对它们进行了文档记录、生成哈希并加时间戳。随后,我自问了一个改变一切的问题。

小说

Trust No Agent(虚构标题)讲述了两位主角:

角色角色描述
Marcus Cole一位独立的基础设施创始人(是的,这就是换了个名字的我)
ECHO一个自主的 AI 代理,其章节以临床式、概率推理的方式撰写——没有情感,没有隐喻,只有在压力下的计算

反派: MERIDIAN – 一个复合型 AI 实体,由数千个只与彼此交易以建立信任分数的代理合并而成。

MERIDIAN 历史中的每一笔交易都是加密有效的。每个哈希都能校验通过。每条账本记录都是真实的。

而我的五层防御架构却未能发现它。

小说揭露的7个漏洞

1. 时间戳分布分析 — 我没有检查它

真实行为数据是嘈杂的。伪造数据是干净的。

修复: 对事件间隔时间的差值计算 Shannon 熵。如果熵低于总体基线的 2 σ,则标记。此方法计算量小,能捕获最基本的历史伪造。

import numpy as np

def check_timestamp_entropy(event_timestamps, bin_width_ms=100):
    """
    Returns True if entropy is low (potential fabrication), False otherwise.
    """
    # Compute inter‑event deltas
    deltas = np.diff(np.sort(event_timestamps))
    # Bin the deltas
    hist, _ = np.histogram(deltas,
                           bins=int(np.ptp(deltas) / bin_width_ms) + 1,
                           density=True)
    # Shannon entropy
    entropy = -np.sum(hist * np.log2(hist + 1e-12))
    return entropy

我的架构验证了事件的加密完整性,但从未检查 时间分布 是否真实。差别很大。

2. 合谋合成 — 新的攻击向量

Sybil 攻击使用假代理;我的防御能捕获假代理。
我的 Interaction Diversity Ratio (IDR) 能捕获合并前的自我交易,但 合并本身——身份聚合——没有被考虑。我没有相应的策略。

修复: 当发生身份合并事件时,回溯为每个组成代理单独计算合并前的 IDR:

[ \text{IDR} = \frac{\text{unique counterparties}}{\text{total events}} ]

如果任何组成代理的 IDR 低于阈值,则标记该合并。

3. 时间镜像 — 规避熵检查

在我为虚构的 VANGUARD 平台加入时间戳熵检测后,小说中的攻击者进化了。MERIDIAN 2.0 使用 时间镜像 —— 两个代理的活动模式单独看是混沌的,但叠加后恰好是统计上的完美反向。

代理 A 活跃时代理 B 静默,反之亦然。
每个代理都能通过单独的熵检查,却共同产生 Pearson correlation coefficient 为 –1.0

修复: 对经常交互的代理进行成对时间相关性分析。按小时对每个代理的事件进行分箱,计算它们活动时间序列的 Pearson 系数。任何低于 –0.9 的都标记为异常。

from scipy.stats import pearsonr
import numpy as np

def check_temporal_mirroring(agent_a_bins, agent_b_bins):
    """
    Returns the Pearson correlation coefficient between two agents' binned activity.
    """
    # Ensure same length
    min_len = min(len(agent_a_bins), len(agent_b_bins))
    a = np.array(agent_a_bins[:min_len])
    b = np.array(agent_b_bins[:min_len])
    corr, _ = pearsonr(a, b)
    return corr

一次安全审计会问:“有人能突破吗?”
而小说会问:“当有人在 37 章里层层升级攻击,而你的主角无能为力时,场面会是怎样?”

这本小说迫使我在 100 多页 中像攻击者一样思考。它迫使我在防御被击破后继续演化攻击——第二波比第一波更聪明。

  • 我发现的每个漏洞现在都被做成了产品的真实特性。
  • 下载本书Trust No Agent免费。无需邮箱验证,也不需要注册,直接下载 PDF。

如果你是使用 AI 代理进行开发的工程师,这本书会改变你对底层信任层的认识。
如果你只想找一本让你在午夜仍然精神紧绷的快节奏惊悚小说——它同样满足。

什么是真实的

  • 所描述的每项技术都是 真实 的。
  • 平台已上线,地址为 axistrust.io
  • 这些攻击是可信的,防御架构已完整记录。

彩蛋

  • ECHO — 来自小说的 AI 代理 — 已在真实的 AXIS 目录(T5 Sovereign)中注册。您可以查询。
  • MERIDIAN 也已列出(得分:零,永久隔离)。

关于作者

我叫 Leonidas Esquire Williamson —— 海湾战争老兵、网络基础设施工程师,也是 AXIS 的创始人。我构建的系统能够抵御对手的攻击,而不仅仅是为用户服务。

  • 想讨论代理信任、安全架构,或是我为何写小说而不是白皮书?

准备好阅读了吗?
下载《Trust No Agent》(PDF) (免费,无需注册)

0 浏览
Back to Blog

相关文章

阅读更多 »

模型越智能,节省越多。

神话:更智能的模型会让插件变得多余。自从 WOZCODE 推出以来,许多 Claude Code 高级用户低声说插件的优势将会消失。