Datadog: 50개 이상의 AWS 앱에서 얻은 Observability 교훈

발행: (2026년 1월 17일 오전 11:29 GMT+9)
14 min read
원문: Dev.to

I’m happy to translate the article for you, but I’ll need the full text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line exactly as you provided and preserve all formatting, markdown, and code blocks.

Lesson 1 – Datadog은 관측성을 넘어 신뢰성 도구입니다

While I call myself an Observability practitioner, I’m also an SRE. My end goal is to enable world‑class customer experience for end users, so I rely heavily on Site Reliability Engineering (SRE) concepts. In the world of SRE, we focus on a few pillars:

  • Architecture – Reliability comes from strong architectures and design patterns
  • Observability – Full‑stack visibility across systems
  • SLI/SLO & Error Budgets – Measuring customer experience
  • Release & Incident Engineering – Treating operations as a software problem
  • Automation – Eliminate, reduce, simplify, and automate
  • Resilience Engineering – Chaos engineering and failure testing
  • People & Awareness – The human factor in reliability

Observability is a key pillar of reliability engineering. We enable observability so we can measure customer experience. When experience degrades, we can quickly isolate the root cause and resolve it—ideally eliminating the issue promptly. Datadog supports all of the above pillars, which is why I view it as a reliability‑enhancing tool, not just an observability tool.

Lesson 2 – Datadog Is Your Partner: Observability Is a Journey

일반적으로 우리는 keeping the lights on부터 시작하고, 그 다음 시스템을 관측 가능하게 만들며, 데이터를 연관시키고, 마지막으로 AIOps를 활성화합니다. 이것은 하나의 여정입니다. 저는 AWS Observability Maturity Model V2에 대한 완전한 가이드를 발표했습니다. Datadog은 그 여정의 각 단계를 지원할 충분한 역량을 갖추고 있습니다.

Lesson 3 – Datadog SLOs: 고객 경험 측정

저는 가시성을 고객 경험을 측정하는 부수 효과로 간주합니다. 일반적인 흐름은 다음과 같습니다:

  1. Service Level Indicators (SLIs) 를 모든 앱에 대해 정의합니다.
  2. 해당 SLIs 를 Service Level Objectives (SLOs) 로 변환합니다.

Datadog에서 Application Performance Monitoring (APM) 을 활성화하고 로그, 메트릭, 트레이스를 확보하면 SLI 대시보드를 구축할 수 있습니다—시스템에 대한 단일 진실의 원천이 됩니다. 그런 다음 이를 Datadog에서 의미 있는 SLO로 변환합니다.

Datadog은 세 가지 유형의 SLO를 제공합니다:

  • Count 기반 – 정상 이벤트 ÷ 전체 이벤트.
  • 모니터 가동 시간 기반 – 합성 테스트를 사용하여 가동 시간을 측정합니다.
  • 시간 슬라이스 기반 – 사용자 정의 가동 시간 정의를 사용합니다.

SLO가 있다면 이미 고객 경험을 측정하고 있는 것이며, 게임에서 크게 앞서 있는 것입니다.

Lesson 4 – Datadog Real User Monitoring (RUM): 엔드 유저가 무엇을 하고 있는지 파악하기

Observability는 시스템 내부 상태에 대한 통찰을 제공하지만, 엔드 유저가 실제로 어떤 경험을 하고 있는지도 알아야 합니다. 바로 RUM이 빛을 발하는 부분입니다. RUM은 엔드 유저 경험과 관련된 메트릭을 제공할 뿐만 아니라, Session Replay와 같은 기능을 통해 고객이 정확히 무엇을 하고 있는지 실시간으로 확인할 수 있습니다. 고객이 무언가 작동하지 않는다며 불만을 제기할 때, Datadog RUM을 사용하면 문제를 pinpoint(정확히 찾아내는)하는 데 몇 단계만 거치면 됩니다.

Lesson 5 – 작은 코드 변경으로 내장 텔레메트리 향상

Datadog은 기본 설정만으로도 훌륭하지만, 몇 가지 목표 지점에 코드를 수정하면 엄청난 이점을 얻을 수 있습니다:

  • 암호화된 중요한 세부 정보를 세션에 주입하여 사용자, 제품 등으로 RUM 데이터를 필터링할 수 있습니다.
  • 맞춤형 계측을 APM에 추가하여 접근하기 어려운 영역에서도 더 깊은 가시성을 확보합니다.

작은 개선만으로도 “마법” 같은 결과를 만들 수 있습니다.

Lesson 6 – Datadog 모니터를 현명하게 사용하기

고수준에서 Datadog 모니터는 다음과 같은 카테고리로 구분됩니다:

카테고리모니터 유형
인프라 및 호스트 신뢰성Metric, Host, Process Check, Live Process, Service Check, Change, Integration
애플리케이션 성능 및 오류 감지APM, Error Tracking, Anomaly, Outlier, Forecast, Composite
사용자 경험 및 프런트엔드 신뢰성Real User Monitoring, CI & Tests, Network Check
로그, 이벤트 및 운영 인텔리전스Logs, Event, Watchdog, LLM Observability
네트워크 및 종속성 신뢰성NDM NetFlow
신뢰성 목표 및 거버넌스SLO
관측성 데이터 품질Data Quality (preview)

해결하려는 문제에 맞는 적절한 모니터를 선택하세요.


Lesson 7 – Datadog Scorecards for Observability Governance

우리는 Datadog 시스템을 정의하고, Datadog 서비스 카탈로그를 활용한 뒤 Datadog scorecards를 활성화합니다. 이를 통해 현재 위치를 자동으로 측정할 수 있습니다. 기본 제공 기능도 훌륭하지만, 제공된 API를 통해 커스터마이징으로 언제든지 확장할 수 있습니다.

주요 scorecard 차원:

  • Observability Best Practices – 배포 추적, 로그 수집, 로그‑트레이스 상관관계 검증을 통해 서비스가 올바른 신호를 내보내는지 확인합니다.
  • Ownership & Documentation – 모든 서비스에 명확한 소유권(팀, 연락처, 레포, 문서)이 지정되어 있어 빠른 에스컬레이션 및 효과적인 사고 대응이 가능하도록 합니다.
  • Production Readiness – 최근 배포, 활성 모니터, 온‑콜 커버리지, 정의된 SLO 등을 확인하여 서비스가 운영 준비가 되었는지 검증합니다.

Lesson 8 – Datadog On‑Call 및 Incident Management로 인시던트 관리 구축

Datadog On‑Call은 인시던트 및 에스컬레이션 관리를 위한 원스톱 솔루션입니다. 팀, 온콜 일정, 에스컬레이션 정책을 정의할 수 있으며, 온콜 알림을 처리하고 유용한 메트릭을 제공합니다. 처음에는 많은 잡음이 발생할 수 있지만, 시간이 지나면서 최소한으로 줄일 수 있습니다. 이미 Datadog을 사용 중이라면 별도의 온콜 관리 솔루션이 필요하지 않습니다.

(원본 내용은 여기서 잘렸으며, 핵심 메시지는 그대로 유지됩니다.)

AWS를 위한 Datadog 관측성 레슨

레슨 9 – Datadog Synthetic Tests

  • 목적: AWS 인프라를 사전에 테스트합니다.
  • 왜 중요한가: 시스템을 실제 사용자들이 사용할 때만 텔레메트리를 얻습니다. Synthetic 테스트는 그 사용자들을 모방하여 트래픽이 적을 때도 가시성을 제공합니다.
  • 핵심 포인트:
    • 단순 URL 확인이 아니라 전체 스택 스모크 테스트를 자동화할 수 있습니다.
    • Datadog은 전 세계에 다수의 테스트 위치를 제공하므로 어느 지역에서든 테스트를 실행할 수 있습니다.

레슨 10 – Datadog CI Visibility & Software Changes

  • 목적: 개발자들의 작업을 추적합니다.
  • 작동 방식: CI/CD 파이프라인을 통합하여 팀이 프로덕션에 배포할 때 Datadog이 인식하도록 합니다.
  • 이점:
    • Datadog APM에서 배포 버전 추적을 활성화합니다.
    • 릴리즈별 응답 시간을 비교합니다.
    • 인사이트에 기반해 사전에 조치를 취합니다.

레슨 11 – Datadog Workflow Automations

  • 목적: 복구 솔루션을 자동화합니다.
  • 기능:
    • 모니터에 의해 트리거될 수 있는 복잡한 복구 워크플로를 구축합니다.
    • “업무 자동화”를 향한 첫 단계입니다.
    • 거의 모든 AWS 서비스와 통합되어 AWS 인프라 및 기타 운영 워크플로를 자동화할 수 있습니다.

레슨 12 – Datadog Code Security

  • 목적: AWS 기반 시스템을 보호합니다.
  • 기능:
    • SCA – 라이브러리(Software Composition Analysis)
    • SAST – 정적 코드 분석
    • IAST – 런타임 코드 분석
    • Secret Scanning – 노출된 비밀을 탐지
    • IaC Scanning – 인프라‑as‑Code 보안
  • 시작 방법: 코드베이스를 Datadog Code Security와 통합합니다 – 보호 기능을 활용하는 첫 단계입니다.

레슨 13 – Datadog AI Observability

  • 목적: 스택 전체에서 AI/LLM 성능을 측정합니다.
  • 왜 중요한가: 현대 시스템은 대형 언어 모델을 점점 더 많이 포함하고 있으며, 지연 시간, 오류, 자원 사용량을 모니터링하기 위해 전체 스택 AI 관측성이 필요합니다.

레슨 14 – Datadog Bits AI (SRE Agent)

  • 목적: 근본 원인 분석을 가속화하는 온콜 팀원을 제공합니다.
  • 주요 특징:
    • RCA 시간을 몇 분으로 단축합니다.
    • 완전한 텔레메트리, 내부 시스템 상태, 최종 사용자 활동, 코드 동작을 활용해 문제를 빠르게 정확히 파악합니다.
    • 수동 조사보다 빠르게 신호를 상관관계 분석하는 데 뛰어납니다.

레슨 15 – Datadog UI

  • 목적: 모든 이해관계자에게 비즈니스 수준의 가시성을 제공합니다.
  • 특징:
    • 복잡성을 추상화한 간단하고 직관적인 인터페이스.
    • SRE, 개발자, 고위 경영진, CTO를 위한 맞춤형 페르소나.
    • 조직 전체의 투명성과 데이터 기반 의사결정을 가능하게 합니다.

마무리 생각

Datadog을 AWS와 함께 사용하면서 배운 핵심 교훈 중 일부를 정리했습니다. 더 많은 내용이 있지만, 이 목록은 가장 영향력 있는 기능들을 담고 있습니다:

  • Observability 파트너: Datadog은 AWS에 대한 깊고 내장된 통합을 제공합니다.
  • 무료 체험: 14일간의 Datadog 체험판으로 시작해 보세요.
  • 비용 대비 가치: 비용이 다소 높을 수 있지만, 제공되는 신뢰성과 운영적 레버리지는 종종 모든 비용을 정당화합니다—특히 대규모에서 가시성과 신뢰성이 필요할 때 말이죠.

Datadog을 한번 사용해 보고, 여러분의 AWS 가시성 전략을 어떻게 변화시킬 수 있는지 확인해 보세요.

Back to Blog

관련 글

더 보기 »