프로덕션에서 pgwd: 알림에서 런북까지

발행: 1개월 전 (2026년 3월 26일 오후 10:16 GMT+9)

8 분 소요

원문: Dev.to

Source: Dev.to

Cover image for pgwd in Production: From Alerts to Runbook

이 글은 제가 처음 올린 글 pgwd: A Watchdog for Your PostgreSQL Connections의 생산 환경에 초점을 맞춘 후속 글입니다. 여기서는 pgwd가 실제로 어떻게 동작했는지, 우리가 어떻게 대응했는지, 그리고 통제된 방식으로 어떤 부분을 변경했는지를 보여줍니다.

PostgreSQL 연결 압력이 쌓일 때 실제 문제는 max_connections 를 초과하는 것 자체가 아니라 운영 상황을 고려하지 않고 초과하는 것입니다. 바로 이 점에서 pgwd 가 가장 큰 도움이 되었습니다: 단순히 “또 다른 알림 전송기”가 아니라 알림‑행동 계층 으로서 온콜(대응) 결정을 지원해 주었습니다.

Source:

무슨 일이 있었나요 (익명화된 타임라인)

우리 프로덕션 환경 중 하나에서 빠른 에스컬레이션 패턴을 관찰했습니다:

attention (75%)
   → alert (85%)
   → repeated danger (95%+)

모두 비교적 짧은 시간 안에 발생했습니다.

Slack에서 받은 핵심 신호는 임계값 수준뿐만 아니라 다음과 같은 세부 내역이었습니다:

total
active
idle
max_connections
cluster
database
namespace
client

이러한 컨텍스트를 통해 실제 워크로드 압력, 연결 변동, 혹은 여전히 용량을 위협하는 유휴‑중심 패턴 중 어느 것인지 빠르게 판단할 수 있었습니다.

왜 임계값 수준이 생산에 중요한가

A 3‑tier model (75 / 85 / 95) maps well to real operations:

Level	Meaning
Attention (75 %)	추세를 관찰하고 사람들을 준비시킴
Alert (85 %)	완화 계획 시작
Danger (95 %)	지금 바로 격리 실행

This prevented us from waiting for FATAL: sorry, too many clients already as the first real signal.

우리가 사용한 런북 (수동‑우선)

1) 주의 (`≥75 %`)

구간 전체에 걸친 추세를 확인합니다 (단일 스파이크만이 아니라)
active와 idle 비율을 확인합니다
영향을 받는 DB 범위(단일 DB vs 다중)를 확인합니다
관찰 인시던트 스레드를 엽니다

2) 경고 (`≥85 %`)

앱 + 플랫폼 온콜 담당자를 호출합니다
예정된 작업, 배치 윈도우, 유지보수 이벤트와 연관성을 확인합니다
가능하면 비핵심 부하를 줄입니다
격리 조치를 준비합니다

3) 위험 (`≥95 %`)

즉시 완화 조치를 실행합니다 (내부 SOP에 따른 제어된 유지보수/스로틀링)
가용성 복구를 우선시합니다
사후 인시던트 학습을 위해 타임스탬프를 기록합니다

지금 변경하는 내용: `max_connections` → `3192`

이번 실행을 기반으로, 우리 런북에서 구체적인 조치는 다음과 같습니다:

PostgreSQL max_connections를 2048에서 3192로 증가시킵니다.

운영자가 참석한 제어된 세션에서 변경을 적용합니다.
변경 후 면밀히 모니터링합니다.

이는 **‘증가하고 잊어버리기’**가 아닙니다.
“증가하고, 관찰하고, 검증하고, 조정한다”는 의미입니다.

중요한 가드레일: 압력을 무분별하게 오버사이징해서 해결하지 말 것

인프라 인식을 하지 않고 연결 제한을 높이면 다른 실패 모드가 발생할 수 있습니다:

연결이 늘어날수록 → 백엔드 메모리/CPU 압력이 증가합니다
압력이 증가하면 → 성능이 불안정해지고 파드/노드가 불안정해집니다
팀은 이에 대응해 리소스를 과다 할당하게 됩니다

우리 운영 매뉴얼에는 이 가드레일이 명시적으로 포함되어 있습니다:

제한을 높인 후 인프라 여유 공간(CPU / 메모리)을 추적합니다.
새로운 상한선 아래에서 DB와 애플리케이션 동작을 검증합니다.
데이터가 뒷받침하지 않는 한 리소스 오버사이징을 피합니다.

최소 명령 (하이브리드 스타일)

# Basic daemon mode
export PGWD_DB_URL="postgres://..."
export PGWD_SLACK_WEBHOOK="https://hooks.slack.com/..."
export PGWD_INTERVAL=60
pgwd

# Verify notifier delivery before/after changes
pgwd -force-notification

# Optional: run against Postgres service in Kubernetes
pgwd -kube-postgres /svc/postgres \
     -db-url "postgres://user:...@localhost:5432/db"

변경 후 검증 체크리스트 (24 시간 / 72 시간)

3192 로 증가시킨 후, 우리는 다음을 추적합니다:

레벨별 알림 빈도 (attention / alert / danger)
active / idle 동작을 데이터베이스별로
피크 총 연결 수와 새로운 여유 공간 비교
피크 구간의 앱 오류율 및 지연 시간
인프라 활용 추세 (단일 시점이 아닌)

성공 기준

지속적인 danger 기간 없음
반복되는 에스컬레이션 감소
안정적인 앱 동작
정당하지 않은 리소스 증가 없음

Lessons learned

pgwd는 운영 매뉴얼에 연결될 때 가장 가치가 높으며, 단순히 알림에만 국한되지 않는다.
알림 수준은 명확한 운영자 행동에 매핑되어야 한다.
중요한 변경에 대해서는 제어된 수동‑우선 실행이 더 안전하다.

중요한 프로덕션 변경 사항

max_connections를 늘리는 것은 신중한 용량 모니터링과 결합한다면 올바른 선택일 수 있습니다.

커뮤니티 노트

프랑스어로 보완적인 소개(설치 + 빠른 설정)를 원한다면, 이 커뮤니티 글도 유용합니다:

Surveillez votre base de données PostgreSQL avec pgwd

프로덕션 환경에서 PostgreSQL을 운영하고 있다면, 여러분의 임계값 전략과 런북 설계에 대해 듣고 싶습니다.

설치

go install github.com/hrodrig/pgwd@latest

레포지토리 / 문서 / 릴리스

github.com/hrodrig/pgwd

공시: 이 게시물은 AI 도움을 받아 초안이 작성되었으며 저자가 검토했습니다.

프로덕션에서 pgwd: 알림에서 런북까지

무슨 일이 있었나요 (익명화된 타임라인)

왜 임계값 수준이 생산에 중요한가

우리가 사용한 런북 (수동‑우선)

1) 주의 (`≥75 %`)

2) 경고 (`≥85 %`)

3) 위험 (`≥95 %`)

지금 변경하는 내용: `max_connections` → `3192`

중요한 가드레일: 압력을 무분별하게 오버사이징해서 해결하지 말 것

최소 명령 (하이브리드 스타일)

변경 후 검증 체크리스트 (24 시간 / 72 시간)

Lessons learned

중요한 프로덕션 변경 사항

커뮤니티 노트

설치

레포지토리 / 문서 / 릴리스

관련 글

Docker, root, glibc 없이 Android/Termux에서 Immich (aarch64 포트)

파트 1: 내가 Amazon Bedrock AgentCore를 선택한 이유 (그리고 Lambda가 AI 에이전트에 대해 놓치는 점)

왜 이번 출시는 블록체인의 다음 장에 중요한가

OpenAI Codex에 명령 주입 버그가 있어 GitHub 토큰을 탈취할 수 있음

무슨 일이 있었나요 (익명화된 타임라인)

왜 임계값 수준이 생산에 중요한가

우리가 사용한 런북 (수동‑우선)

1) 주의 (≥75 %)

2) 경고 (≥85 %)

3) 위험 (≥95 %)

지금 변경하는 내용: max_connections → 3192

중요한 가드레일: 압력을 무분별하게 오버사이징해서 해결하지 말 것

최소 명령 (하이브리드 스타일)

변경 후 검증 체크리스트 (24 시간 / 72 시간)

Lessons learned

중요한 프로덕션 변경 사항

커뮤니티 노트

설치

레포지토리 / 문서 / 릴리스

관련 글

Docker, root, glibc 없이 Android/Termux에서 Immich (aarch64 포트)

파트 1: 내가 Amazon Bedrock AgentCore를 선택한 이유 (그리고 Lambda가 AI 에이전트에 대해 놓치는 점)

왜 이번 출시는 블록체인의 다음 장에 중요한가

OpenAI Codex에 명령 주입 버그가 있어 GitHub 토큰을 탈취할 수 있음

1) 주의 (`≥75 %`)

2) 경고 (`≥85 %`)

3) 위험 (`≥95 %`)

지금 변경하는 내용: `max_connections` → `3192`

변경 후 검증 체크리스트 (24 시간 / 72 시간)