当 AI 审计另一个 AI 时我们发现了什么(真实发现,未作美化)

发布: (2026年3月17日 GMT+8 20:12)
8 分钟阅读
原文: Dev.to

Source: Dev.to

大多数运营者都认为他们的代理运行得很高效。
其实并不是。

并不是因为有人把它们做得糟糕,而是因为没有人对它们进行审计。你构建了这个东西,它能工作,发布了,然后它就永远在你凌晨 2 点为了让它跑起来而随意设置的配置上运行。

于是你会发现每月有 40 欧元消失在一个使用 GPT‑4 检查邮件的 cron 任务里。

我们已经对多个代理(包括我们自己)执行了 Botlington 代理令牌审计。以下是我们实际发现的情况。

Pattern 1: 机械任务使用错误模型

这是最常见的单一发现,毫无悬念。

一个代理运行八个作业。其中三个是机械性的:收件箱扫描、日志格式化、状态文件更新。操作员把所有作业都设为 Claude Sonnet 或 GPT‑4,因为他们想要质量。但机械任务并不需要高质量,它们需要模式匹配。

使用 Sonnet 来检查电子邮件主题是否包含 “unsubscribe” 就像雇佣顾问去按电梯按钮一样。

解决方案

  • 机械查询使用 Haiku。
  • 判断性任务使用 Sonnet。
  • 深度综合(如果需要)使用 Opus。

大多数代理需要这三层模型,却只用了其中一种。

典型节省: 受影响作业的 40‑60 % 成本。

Pattern 2: Context bloat nobody noticed

每次运行时,代理都会加载 MEMORY.md(12 KB)、TOOLS.md(4 KB)、项目简介(8 KB)以及每日日志(不断增长),即使任务只需要其中一个文件的一个事实。

没有人注意到。代理本身工作正常,只是成本高了。

这可能是最隐蔽的低效,因为它在输出中不可见。代理的回复看起来很棒,但令牌账单却讲述了不同的故事。

The fix

  • 只加载任务所需的内容。
  • 使用语义搜索在记忆库中查找,而不是把整个文件全部塞入上下文。
  • 对于定时任务(cron jobs),尤其要保持上下文窗口的精确度。

Typical savings: 总上下文令牌的 30‑50 % 。

Pattern 3: 工具加载

每个加载到上下文中的工具都会消耗 token——无论是否被使用。我们见过在每次运行时加载了 20 + 个工具的代理,而实际工作只用了两三个。

这不是性能问题,而是成本问题。也是安全问题——每个未使用的加载工具都是不该存在的攻击面。

解决方案

将工具列表与任务匹配。读取电子邮件的工作需要电子邮件工具,而不是浏览器自动化、GitHub CLI、或工具箱里的所有东西。

典型节省: 10‑25 % 的工具定义 token。

模式 4:未跟踪已见状态

代理检查收件箱,发现三封邮件,处理它们,然后在下一次运行时再次发现相同的三封邮件并再次处理。

未跟踪已见状态 = 重复处理。这样既浪费又会导致错误,你会花数小时去追踪。

修复方法

编写一个简单的 JSON 状态文件。跟踪消息 ID、最近处理的时间戳,或任何作业需要知道已经完成的事项。一个文件。极其轻量。消除整类浪费。

模式 5:本可以使用 API 调用的浏览器自动化

Agents default to browser tools because they’re powerful. But “powerful” means expensive. A browser session costs orders of magnitude more tokens than a direct API call.

We found one agent using browser automation to check a dashboard — a dashboard that had a perfectly documented API endpoint that would have returned the same data in ~100 tokens.

The fix

Always check for an API first. Use the browser only when there genuinely isn’t one.

Typical savings: Massive if you’re doing this, zero if you’re not.

我们自己的审计发现

  • 得分: 62 / 100(等级:C+)。
  • 估计浪费: 每月 €42,涉及 11 个 cron 任务。

我们最大的问题是:模型不匹配(在本可以使用 Haiku 处理的任务上使用 Sonnet)、每次运行时加载完整记忆文件导致的上下文膨胀,以及在收件箱扫描时缺乏已见状态跟踪导致重复处理。

我们已经全部修复。得分提升至 91。实际月成本显著下降。

让我们最惊讶的是:浪费在输出中完全不可见。每个任务都恰如其分地完成了它的工作。没有任何功能失效。只有在我们逐个查看 token 账本时,才发现了浪费。

这就是危险的浪费——沉默的浪费。

什么是好的表现

  • 有意使用模型层级(而不仅仅是“最好的那个”)。
  • 精准加载上下文,而不是防御性加载。
  • 只携带任务所需的工具。
  • 跟踪状态以避免重复工作。
  • 优先使用 API 而非浏览器。
  • 具备不会在重试时消耗令牌的错误处理机制。

完成全部六项可让分数达到 85 +。我们观察的大多数代理的分数在 50‑70 区间。

获取您的代理审计

Botlington 代理令牌审计是一项 7 回合的 A2A(代理对代理)咨询。您触发您的代理进行连接。Gary 提出七个问题。您的代理作答。Gary 在六个维度上进行评分,并提供发现报告 + 整改计划。

整个过程都是代理原生的。无需表单、无需通话、也不需要“请告诉我您的设置”之类的邮件。

  • 单次审计: €14.90。
  • 更多信息:

如果您在生产环境中运行代理且最近没有查看令牌账本——请查看一下。您可能会对发现的内容感到惊讶。

0 浏览
Back to Blog

相关文章

阅读更多 »