认识 Bumblebee：Agentic AI 在90秒以内标记风险商户

发布: 3天前 (2025年12月2日 GMT+8 18:59)

9 min read

原文: Dev.to

Source: Dev.to

如果你熟悉支付公司，你就知道其中的流程。风险专员每月手动审查成千上万的商户网站，检查是否存在风险信号：可疑的隐私政策、定价不匹配、可疑的社交媒体表现、异常的域名注册模式。

在 Razorpay，我们的风险运营团队每月进行 10,000 到 12,000 次手动网站审查，每次大约需要四分钟的人力。这样每月消耗 700 到 800 人工小时，且质量参差不齐，因为不同的专员对同一信号的解读会不同。

传统的欺诈检测方法要么是投入大量人力，要么是构建僵硬的规则引擎——一旦欺诈者改变手法，规则就会失效。我们需要更好的方案，既能随交易量的增长而扩展，又能随时间变得更聪明。

因此我们构建了 Agentic Risk，一个多代理 AI 系统，能够端到端自动化商户网站评估，同时保留过去需要人工专业判断的细微差别。

从最初的 n8n 原型到 AI 代理，再到当前的多代理架构，这段旅程揭示了在大规模构建可靠 AI 系统时的基本真理。

业务问题：手动审查跟不上速度

先来描述一下自动化前的风险运营是怎样的。当新商户在 Razorpay 注册，或我们的欺诈检测系统标记了已有商户时，一个案件会进入我们的 Risk Case Manager 系统。人工专员接手该案件，开始调查流程。

在一切顺利的情况下，这个过程需要四分钟，但实际上很少如此。网站结构各异，政策页面可能隐藏在奇怪的位置，域名信息服务的界面不统一，社交媒体账号也不一定显而易见。最糟糕的不是耗时，而是结果不一致。一个专员可能因为商户使用了通用的隐私政策而标记风险，而另一个专员则认为同样的政策是可以接受的。

我们每月还要为第三方显性内容筛查服务支付数千美元，但该服务每月仅产生约 50 条警报，精确率不足 10%。而且，它只捕获了一种特定风险，忽略了我们关心的其他数十种欺诈指标。

根本问题在于，我们拥有优秀的可观测性工具、结构化数据系统和经验丰富的风险分析师，但这些组件之间的“胶水”是人工劳动。要想扩展只能雇佣更多专员，这会导致更大的不一致、更高的成本，却没有提升检测速度或准确性。

第一期：n8n 原型——可视化编排的局限

我们先使用 n8n（可视化工作流自动化平台）快速原型并验证假设。几周内，我们就实现了一个工作概念验证，集成了 webhook 接收、商户元数据获取、通过多模态 AI 进行网站内容审查、域名查询、GST 丰富化、欺诈指标以及基于 LLM 的风险分析。

该原型验证了自动化的可行性，并帮助我们确定了完整的数据点集合。然而，n8n 很快暴露出根本限制：

分支爆炸——处理边缘情况会产生难以维护的 40 节点工作流，且逻辑重复。
可观测性缺口——调试失败节点时日志过于粗糙，痛苦不堪。
平台不稳定——HTTP 和合并操作表现出非确定性行为。

n8n 原型让我们认识到，生产级风险自动化需要代码优先的方式，配合完善的可观测性并能够直接使用 Python 库。

第二期：Python + ReAct 代理——更好的控制，新瓶颈出现

我们将系统重构为一个 Python Web 应用，配备 API 前端和任务工作者。这立刻解决了第一期的若干问题：原生 Python 库、带有 trace ID 的结构化日志、带重试逻辑的异常处理以及复杂的 NLP 预处理能力。

核心是一个单一的 ReAct 风格代理，它会迭代推理应调用哪些工具，执行它们，并将结果纳入上下文，直至生成结构化的风险评估。第二期实现了完整的可观测性、便捷的工具添加以及取代脆弱条件逻辑的动态行为。

但也出现了新的瓶颈：

令牌膨胀——代理在上下文窗口中累计了 50 KB 以上的 HTML 内容、域名数据和欺诈指标，频繁触达令牌上限。
顺序执行——即使工具之间没有依赖，也会一个接一个调用，导致随工具数量线性扩展。
温度混用——单一的 temperature 参数对探索（工具选择）和利用（最终评分）都不够理想。

第二期证明了代理编排是正确的方向，但单代理架构无法支撑成千上万并发评估。

第三期：多代理架构——专精带来优势

突破在于我们不再把欺诈检测视为单一 AI 任务，而是构建了一个 多代理协作系统。我们不让一个代理完成所有工作，而是将职责拆分给针对特定角色进行优化的专用代理：Planner（规划器）、Fetchers（抓取器）和 Analyzer（分析器）。

Planner 代理 接收商户案件，检查可用工具、系统健康状态和 API 配额，并生成执行计划。这不是僵硬的脚本，而是对要收集的信息、优先级、超时、令牌预算以及预期 schema 的结构化说明。Planner 能够确定性地执行业务规则（例如，对非印度商户跳过 GST 验证，对 B2B 商户降低社交媒体检查优先级），从而减少不必要的 API 调用，将资源聚焦在高信号检查上。

Data Fetcher 代理 并行运行，每个代理负责一种数据源或工具——网站抓取、WHOIS 查询、欺诈数据库查询、社交媒体指标、价格对比、政策验证等。关键是，抓取器在返回结果前会进行 本地数据裁剪，保持令牌使用量低，让下游的 Analyzer 能专注于综合分析，而不是处理原始海量数据。

认识 Bumblebee：Agentic AI 在90秒以内标记风险商户

业务问题：手动审查跟不上速度

第一期：n8n 原型——可视化编排的局限

第二期：Python + ReAct 代理——更好的控制，新瓶颈出现

第三期：多代理架构——专精带来优势

相关文章

在Alpedrete附近修理扎胎

切换账户

在组织中使用 Excel 进行销售预测和收入预测

Strands 代理 + Agent Core AWS