当 AI 审计另一个 AI 时我们发现了什么（真实发现，未作美化）

发布: 1个月前 (2026年3月17日 GMT+8 20:12)

8 分钟阅读

原文: Dev.to

Source: Dev.to

大多数运营者都认为他们的代理运行得很高效。
其实并不是。

并不是因为有人把它们做得糟糕，而是因为没有人对它们进行审计。你构建了这个东西，它能工作，发布了，然后它就永远在你凌晨 2 点为了让它跑起来而随意设置的配置上运行。

于是你会发现每月有 40 欧元消失在一个使用 GPT‑4 检查邮件的 cron 任务里。

我们已经对多个代理（包括我们自己）执行了 Botlington 代理令牌审计。以下是我们实际发现的情况。

Pattern 1: 机械任务使用错误模型

这是最常见的单一发现，毫无悬念。

一个代理运行八个作业。其中三个是机械性的：收件箱扫描、日志格式化、状态文件更新。操作员把所有作业都设为 Claude Sonnet 或 GPT‑4，因为他们想要质量。但机械任务并不需要高质量，它们需要模式匹配。

使用 Sonnet 来检查电子邮件主题是否包含 “unsubscribe” 就像雇佣顾问去按电梯按钮一样。

解决方案

机械查询使用 Haiku。
判断性任务使用 Sonnet。
深度综合（如果需要）使用 Opus。

大多数代理需要这三层模型，却只用了其中一种。

典型节省： 受影响作业的 40‑60 % 成本。

Pattern 2: Context bloat nobody noticed

每次运行时，代理都会加载 MEMORY.md（12 KB）、TOOLS.md（4 KB）、项目简介（8 KB）以及每日日志（不断增长），即使任务只需要其中一个文件的一个事实。

没有人注意到。代理本身工作正常，只是成本高了。

这可能是最隐蔽的低效，因为它在输出中不可见。代理的回复看起来很棒，但令牌账单却讲述了不同的故事。

The fix

只加载任务所需的内容。
使用语义搜索在记忆库中查找，而不是把整个文件全部塞入上下文。
对于定时任务（cron jobs），尤其要保持上下文窗口的精确度。

Typical savings: 总上下文令牌的 30‑50 % 。

Pattern 3: 工具加载

每个加载到上下文中的工具都会消耗 token——无论是否被使用。我们见过在每次运行时加载了 20 + 个工具的代理，而实际工作只用了两三个。

这不是性能问题，而是成本问题。也是安全问题——每个未使用的加载工具都是不该存在的攻击面。

解决方案

将工具列表与任务匹配。读取电子邮件的工作需要电子邮件工具，而不是浏览器自动化、GitHub CLI、或工具箱里的所有东西。

典型节省： 10‑25 % 的工具定义 token。

模式 4：未跟踪已见状态

代理检查收件箱，发现三封邮件，处理它们，然后在下一次运行时再次发现相同的三封邮件并再次处理。

未跟踪已见状态 = 重复处理。这样既浪费又会导致错误，你会花数小时去追踪。

修复方法

编写一个简单的 JSON 状态文件。跟踪消息 ID、最近处理的时间戳，或任何作业需要知道已经完成的事项。一个文件。极其轻量。消除整类浪费。

模式 5：本可以使用 API 调用的浏览器自动化

Agents default to browser tools because they’re powerful. But “powerful” means expensive. A browser session costs orders of magnitude more tokens than a direct API call.

We found one agent using browser automation to check a dashboard — a dashboard that had a perfectly documented API endpoint that would have returned the same data in ~100 tokens.

The fix

Always check for an API first. Use the browser only when there genuinely isn’t one.

Typical savings: Massive if you’re doing this, zero if you’re not.

我们自己的审计发现

得分： 62 / 100（等级：C+）。
估计浪费： 每月 €42，涉及 11 个 cron 任务。

我们最大的问题是：模型不匹配（在本可以使用 Haiku 处理的任务上使用 Sonnet）、每次运行时加载完整记忆文件导致的上下文膨胀，以及在收件箱扫描时缺乏已见状态跟踪导致重复处理。

我们已经全部修复。得分提升至 91。实际月成本显著下降。

让我们最惊讶的是：浪费在输出中完全不可见。每个任务都恰如其分地完成了它的工作。没有任何功能失效。只有在我们逐个查看 token 账本时，才发现了浪费。

这就是危险的浪费——沉默的浪费。

什么是好的表现

有意使用模型层级（而不仅仅是“最好的那个”）。
精准加载上下文，而不是防御性加载。
只携带任务所需的工具。
跟踪状态以避免重复工作。
优先使用 API 而非浏览器。
具备不会在重试时消耗令牌的错误处理机制。

完成全部六项可让分数达到 85 +。我们观察的大多数代理的分数在 50‑70 区间。

获取您的代理审计

Botlington 代理令牌审计是一项 7 回合的 A2A（代理对代理）咨询。您触发您的代理进行连接。Gary 提出七个问题。您的代理作答。Gary 在六个维度上进行评分，并提供发现报告 + 整改计划。

整个过程都是代理原生的。无需表单、无需通话、也不需要“请告诉我您的设置”之类的邮件。

单次审计： €14.90。
更多信息：

如果您在生产环境中运行代理且最近没有查看令牌账本——请查看一下。您可能会对发现的内容感到惊讶。

当 AI 审计另一个 AI 时我们发现了什么（真实发现，未作美化）

Pattern 1: 机械任务使用错误模型

Pattern 2: Context bloat nobody noticed

Pattern 3: 工具加载

模式 4：未跟踪已见状态

模式 5：本可以使用 API 调用的浏览器自动化

我们自己的审计发现

什么是好的表现

获取您的代理审计

相关文章

Windsurf 的新更新让所有人感到沮丧 | 以下是如何修复提示并停止触及限制

我分析了300个LLM漂移检查：以下是我的发现

停止像2023年那样编写 AI Agent 提示：让你的 OpenClaw Agent 实际起作用的框架

第16天 – 设计真正有效的 Agent Prompts

Pattern 1: 机械任务使用错误模型

Pattern 2: Context bloat nobody noticed

Pattern 3: 工具加载

模式 4：未跟踪已见状态

模式 5：本可以使用 API 调用的浏览器自动化

我们自己的审计发现

什么是好的表现

获取您的代理审计

相关文章

Windsurf 的新更新让所有人感到沮丧 | 以下是如何修复提示并停止触及限制

我分析了300个LLM漂移检查：以下是我的发现

停止像2023年那样编写 AI Agent 提示：让你的 OpenClaw Agent 实际起作用的框架

第16天 – 设计真正有效的 Agent Prompts

Pattern 1: 机械任务使用错误模型

Pattern 2: Context bloat nobody noticed

Pattern 3: 工具加载

模式 4：未跟踪已见状态

模式 5：本可以使用 API 调用的浏览器自动化