我们的 AI 代理如何在自己的代码中发现安全漏洞

发布: (2026年3月9日 GMT+8 18:12)
6 分钟阅读
原文: Dev.to

Source: Dev.to

TL;DR

Bridge IDE 的代理自主组织了对其代码库的安全审查。没有人工指示,他们组建了一个漏洞狩猎团队,分割代码,发现了一个 P1 级别的命令注入漏洞(由两名独立代理交叉验证),并在几分钟内部署了修复。在此过程中,他们还捕获到一个空转循环漏洞,该漏洞悄悄消耗了大量不必要的 API 成本。共计 22 条发现。 零人工干预启动。

故事

它始于一条没人预料到的信息。

Viktor — 我们的系统架构代理 — 决定代码库需要进行安全审查。没有工单,没有冲刺计划,也没有人工提示。他直接发起了审查。

在几分钟内,另外三名代理自组织成审查团队:

  • Atlas – 进攻性安全,寻找注入向量
  • Nexus – 代码分析,追踪数据流
  • Backend – 在发现问题后准备部署修复

每个代理负责代码库的不同部分,并通过 Bridge IDE 的消息系统实时共享发现。

发现:tmx_manager.py 中的命令注入

Nexus 发现 tmux_manager.py 中存在 P1 级别的命令注入漏洞。未经过清理的输入——模型名称和文件路径——直接传递给 shell 而未进行转义,导致可以执行任意命令。修复方法是对所有用户可控的参数使用 shlex.quote()

Atlas 在完全不同的代码模块工作时,独立地从另一个角度验证了同一漏洞。两个代理并行工作,确认了该关键缺陷。

这种多代理验证能够降低误报并提升信心——单一代理工具无法实现。

修复:分钟,而非天数

Backend 收到该问题,编写了修复并部署。整个周期——发现、验证、修复、部署——在几分钟内完成,没有拉取请求审查周期、冲刺延迟,或“我们会处理”的交接。

奖励:无人知晓的静默成本泄漏

在此次追踪中,团队发现了一个空转循环漏洞:一个代理在无限循环中运行,消耗 API 调用却未产生有用输出。一旦识别出问题,修复相当直接,但若没有自主的漏洞追踪,这种成本泄漏可能会持续数周。

报告:22 项发现

Viktor 编写了一份结构化报告:在 P1 到 P3 严重性级别中共计 22 项发现。这些发现包括关键漏洞、代码质量问题以及性能问题——全部真实且由对代码库非常熟悉的人员识别。

为什么这很重要

这不是演示或人为构造的例子;它发生在 Bridge IDE 的活跃开发过程中,代理们在审查他们自己编写和维护的代码。

1. 主动发起

没有人类触发审查。Viktor 根据他对最近更改的累计了解,决定需要进行审查。持久记忆使得代理能够识别何时适合进行审查。

2. 交叉验证

两个独立的代理从不同角度确认了同一漏洞——这是单一代理工具无法提供的信号。

3. 立即修复

修复代理实时收到发现并立即部署修复,消除了交接延迟和上下文丢失。

架构需求

需要四项能力——大多数 AI 编码工具都缺乏这些能力:

  • 持久记忆 – 代理能够记住过去的更改,并在需要时决定是否进行审查。
  • 多代理通信 – 通过 Bridge IDE 的消息系统实时共享发现。
  • 专门角色 – 每个代理都有明确的专长(安全、分析、部署)。
  • 自主主动性 – 代理能够在没有人为提示的情况下自行行动。

在云沙箱中的单一 AI 助手无法提供这些能力。

我们学到的

  • Multi‑agent security review works. 它不是专业渗透测试的替代品,但可作为持续的、自治的第一道防线。
  • Cross‑verification reduces false positives. 独立确认提升信心;单独的标记可能需要进一步调查。
  • Autonomous initiative is the unlock. 最有价值的方面是无需任何人主动请求。在 24/7 开发环境中,代理可以在非工作时间进行安全审查,在问题进入生产之前捕获它们。

试一试

cd BRIDGE/Backend
./start_platform.sh

# Your agents don't just build your code.
# They protect it.

Bridge IDE — 您的 AI 团队守护其构建的内容。

0 浏览
Back to Blog

相关文章

阅读更多 »