우리는 Observability를 잃지 않으면서 Datadog 비용을 60% 절감하는 방법
발행: (2026년 5월 10일 AM 07:49 GMT+9)
3 분 소요
원문: Dev.to
Source: Dev.to
배경
지난 해 우리 Datadog 청구서가 월 $38k에 달했습니다. 경영진은 절반으로 줄이라고 했습니다. 우리는 $15k까지 낮추면서 유용한 신호 하나도 놓치지 않았습니다.
전략
1. 사용되지 않는 커스텀 메트릭 삭제
- 우리는 2,400개의 커스텀 메트릭을 보유했지만 실제로 그래프에 표시되거나 알림에 사용된 것은 600개에 불과했습니다.
- 나머지 1,800개의 메트릭 전송을 중단했습니다.
- 메트릭 비용의 **약 30%**를 절감했습니다.
2. 공격적인 로그 티어 관리
- 핫 로그는 3일 보관, 워밍 로그는 7일 보관 후 콜드 스토리지로 이동했습니다.
- 대부분의 로그 비용은 24시간 이후에 조회되지 않은 디버그 로그를 전체 인덱싱한 데서 발생했습니다.
3. 낮은 카디널리티 태그 사용
- 이전에는
user_id로 메트릭에 태그를 달아 수백만 개의 시리즈를 만들었습니다. - 사용자 수준 데이터는 트레이스로 옮기고 메트릭은 집계 전용으로 유지했습니다.
4. 개발 환경에서 합성 모니터 제거
- 개발 환경에서 200개 이상의 API 체크가 실행되고 있었습니다.
- 합성 모니터는 프로덕션에만 유지했습니다.
5. APM 샘플링 통합
- 모든 트레이스를 100% 샘플링하던 것을 정상 트레이스는 10% 샘플링하고, 오류 및 지연 요청은 100% 유지하도록 전환했습니다.
- 신호 손실 없이 APM 볼륨을 85% 감소시켰습니다.
할인 협상
- 영업팀은 떠나겠다고 위협하면 5–10% 할인을 제공할 수 있습니다.
- 실제로는 볼륨을 줄이는(우리가 한 것처럼) 것이 ~60% 절감 효과를 얻을 수 있습니다.
요약
관측성 비용은 거의 항상 데이터 정리 문제이며, 가격 문제는 아닙니다.