从故障到稳定：我的交互式 DevOps 作品集（在 Cloud Run 上）

发布: 19小时前 (2026年1月31日 GMT+8 22:00)

3 min read

原文: Dev.to

Source: Dev.to

Introduction

我是 Noor Halabi，一名专注于 DevOps 的工程师，拥有全栈开发背景，对系统可靠性、自动化和云架构有浓厚兴趣。在全职转向 DevOps 之前，我曾在应用层面工作，这塑造了我如今对基础设施的思考方式：它们不是孤立的工具，而是为真实用户和真实软件提供支持的系统。

Portfolio Overview

我没有做传统的作品集，而是构建了一个 交互式 DevOps 系统模拟。体验从一次流量激增的事故开始：

出现警报。
系统自动扩容。
稳定性恢复。

只有在事故解决后，作品集才会打开（返回访客可使用跳过按钮）。

随后，作品集以运行中的生产系统呈现，包含多个运营视图：

系统概览
交付（CI/CD）
事故与经验教训
我构建并运营的系统
运维人员简介
升级流程

🔗 Live Portfolio (Google Cloud Run):
(link to be added)

Technical Stack

Front‑end: React（现代单页应用）
Back‑end: Node.js 与 Express
Containerization: Docker
Hosting: Google Cloud Run（无服务器、基于容器）
Challenge label: dev-tutorial=devnewyear2026

Google AI Tools

Antigravity: 负责系统架构设计、用户流程和组件结构。
Gemini: 协助进行 UX 推理、故事叙述以及技术解释的完善。

Design Decisions

单页应用，包含多个运营视图；避免长篇滚动。
导航方式类似切换仪表盘。
对非 DevOps 人员友好；技术深度通过交互逐步展现。
在初始的混乱（事故）后，界面保持平静、稳定。
支持暗色和亮色模式，以匹配用户偏好。

Project Goals

让非 DevOps 观众也能理解作品集，同时向工程师传递真实的 DevOps 思维。
将作品集转变为你运营的系统，而不是仅供阅读的页面。
用通俗语言解释 DevOps 概念，避免行话。
直观展示事故、恢复和交付的过程。
演示在 Google Cloud Run 上成功部署和调试真实生产容器。
展示 Google AI 工具在系统推理中的使用，而不仅是代码生成。

Personal Statement

这个项目体现了我作为工程师的工作方式：

在压力下保持冷静
面向系统
持续改进

感谢阅读！欢迎在评论中留下你的想法或问题。

相关文章

阅读更多 »

‘PackageGate’ 漏洞可以让攻击者绕过 Shai-Hulud 防御

在去年底席卷 npm 的大规模 Shai-Hulud 供应链攻击之后，超过 700 个 package 被破坏，25,000 个 repo 被曝光……

认知负荷感知的 DevOps：提升 SRE 可靠性

站点可靠性工程（SRE）社区倾向于将可靠性视为机械性问题。因此，我们一直在精确地统计“nines”，并致力于……

开源编码代理刚刚变得可获取

Ai2 的开源 SERA 编码代理大幅降低了训练面向代码库的 AI 的成本，使团队能够在私有代码库上定制高性能编码代理。

为什么 Terraform Pipeline 失败仍然需要 30 分钟 —— 以及我们如何将其缩短至 2 分钟

Problem Pipeline 失败会中断 development workflows。典型的 remediation process：扫描数千行 build logs 以查找错误……