Sentrix：AI SRE Copilot 对自己的扩容决策进行辩论

发布: 7小时前 (2026年3月9日 GMT+8 20:17)

4 分钟阅读

原文: Dev.to

Source: Dev.to

Sentrix 封面图：一个能够自行辩论扩展决策的 AI SRE 副驾驶

每个 SRE 团队都有同样的噩梦：凌晨 3 点，流量突增，且没有人预料到。等到 CloudWatch 警报触发时，客户已经不满，收入也已经流失。

我构建了 Sentrix —— 一个 AI 驱动的 SRE 副驾驶，能够在问题发生前预测基础设施故障，并自主扩展你的云资源。它与众不同的地方不仅在于预测——更在于辩论。

三个代理，一个决策

Sentrix 并不是让单一 AI 做决定，而是让三个 Bedrock Claude 代理就每一次扩容调用进行争论：

AGENT_SRE 为可靠性而战：“立刻扩容，我们不能冒停机风险。”
AGENT_FINANCE 从成本角度反驳：“这相当于 5 倍的副本——我们真的需要这么多吗？”
AGENT_ARBITER 综合两者：“先扩容到 3 倍，监控 5 分钟后再重新评估。”

结果是能够在可靠性和成本之间取得平衡的决策，并且每个决策在五分钟后通过 Step Functions 反馈回路进行评分。评分会成为 思考签名，反馈到后续分析中，使 AI 能够学习适用于你特定基础设施的最佳做法。

实际效果展示

我让 Sentrix 经过完整的事故生命周期：

流量突增 →
成本优化 →
区域降级 →
AWS 连锁故障 →
跨云 GCP 故障转移 →
自动恢复。

在一次 4 536 % 的流量激增 中，大脑在毫秒级检测到突增，并将 EKS 从 2 个 pod 扩容到 10 个——无需人工。当流量恢复正常时，Finance 代理主张缩容，系统将 pod 数量从 10 缩回 5。当 AWS 区域出现连锁故障时，三个代理一致同意进行 GCP 故障转移。反馈回路为该决策打出了 100/100 的分数。

整个系统只需一个 AWS CDK 堆栈——Lambda、Bedrock、EKS、DynamoDB、Step Functions、EventBridge、CloudFront——五分钟即可部署完成。

完整写作

完整的文章包括：

架构细节
基于严重程度的模型选择（低严重度使用 Haiku，关键时使用 Sonnet）
思考签名自我进化机制
分阶段演示 walkthrough，附截图

在 Build Signals 上阅读完整写作

我已将 Sentrix 提交至 AWS 10,000 AIdeas 大赛。前 300 篇点赞最高的文章将进入下一轮。如果你觉得这篇文章有趣，点个赞真的能帮上大忙——只需两秒钟。

在 AWS Builder Center 为文章点赞

Sentrix：AI SRE Copilot 对自己的扩容决策进行辩论

三个代理，一个决策

实际效果展示

完整写作

相关文章

如果你的 AI 编码代理真的能从与你合作中学习，会怎样？

评测：GitHub Security Lab 的开源 AI 漏洞扫描框架，用于 Drupal 模块和 WordPress 插件的 CI 流水线

PM2 vs Node Cluster vs Docker — 生产环境中真正重要的是什么

本周你的目标是什么？ #169