我构建了一个 AI 驱动的 AWS 浪费检测器(并在我的账户中发现了 $4,200)
发布: (2025年12月10日 GMT+8 03:48)
5 min read
原文: Dev.to
Source: Dev.to
4200 美元的错误
我曾经把一个预发布环境在 AWS 上一直跑了 6 个月。
- 费用: 4,200 美元
- 流量: 0
- 用户: 0
- 价值: 0
就这么…一直在产生费用。等我终于发现时,感觉自己像是为一间早忘记自己还有的公寓付房租。🤡
为什么 AWS Cost Explorer 不够用
AWS Cost Explorer 能告诉你:
- 你花了多少钱
- 费用花在了哪里
- 费用随时间的趋势
但它不会告诉你:
- 哪些资源根本没有在使用
- 哪些资源你已经忘记了
- 哪些资源被过度配置
- 你到底把钱浪费在哪里
CloudWise 的 AI 驱动浪费检测
我交付了一个 AI 驱动的扫描器,它会检查你的 AWS 账户并找出常见的浪费模式,例如:
- 没有连接的 RDS 数据库
- 未挂载到任何实例的 EBS 卷
- 未绑定到实例的弹性 IP
- 处理零流量的负载均衡器
- CPU 使用率低于 5 %的 EC2 实例
- 没有流量的 NAT 网关
- 没有请求的 ELB
- 只运行 cron 任务的 t3.2xlarge 实例
- 存储空间使用率低于 10 %的 RDS 实例(即 90 %+ 空闲)
- 内存过剩的 EC2 实例
- 分配过多内存的 Lambda 函数
- 跨可用区的数据传输费用
- 使用昂贵存储类别的 S3 桶
- 旧的 EBS 快照
- 未使用的弹性 IP
工作原理
- 连接你的 AWS 账户(只读 IAM 角色;约 2 分钟)
- AI 扫描你的资源(分析使用模式、费用、配置)
- 获取一步步的建议(针对每个问题的具体操作)
示例:检测到孤儿 RDS 数据库
- 资源:
prod-staging-db - 费用: 247.32 美元/月
- 最近一次连接: 187 天前
- 状态: 正在运行但未使用
建议
- 进行最终快照
- 删除数据库
预计节省: 247.32 美元/月(2,967.84 美元/年)
风险等级: 低(6 个月内无连接)
技术栈
- 前端: React + TypeScript + TailwindCSS
- 后端: Python + FastAPI
- 数据库: PostgreSQL
- AI: OpenAI GPT‑4 用于生成建议
- AWS 集成: Boto3 + Cost Explorer API
关键挑战
- IAM 权限: 在安全性与功能之间取得平衡
- 费用归属: 将资源映射到实际费用
- 使用模式检测: 区分空闲与低使用率
- 建议质量: 避免误报
浪费构成(典型)
- 70 % 孤儿或空闲资源
- 20 % 过度配置
- 10 % 配置问题(跨 AZ、存储类别)
我自己的 AWS 账户发现
- 总浪费: 4,247 美元/月
- 孤儿资源: 1,847 美元/月(RDS、EBS、ELB)
- 空闲资源: 1,200 美元/月(EC2、RDS)
- 过度配置: 800 美元/月(EC2、Lambda)
- 跨 AZ 传输: 400 美元/月
试用 CloudWise
https://cloudcostwise.io – 免费使用,无需信用卡。连接你的 AWS 账户大约只需 2 分钟。
期待你的反馈,尤其是来自 DevOps 工程师和平台团队的意见!
即将上线
- 针对 Kubernetes/EKS 的命名空间级费用追踪
- 自动化修复(需批准)
- Slack/Teams 成本异常告警
- 多账户组织支持
分享你的故事
你有没有发现过意外的 AWS 浪费?在评论区分享你的惊悚经历吧!👇
P.S. 那个 4,200 美元的预发布环境?我本可以买一台很棒的意式咖啡机。至今仍在回味。 ☕