내가 우리 데이터에 숨은 1,370명의 사기꾼을 찾아낸 방법 (그리고 우리 회사에 $51,000 절감)
Source: Dev.to – How I found 1,370 fraudsters hiding in our data and saved my company $51,000
번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 한국어로 번역해 드리겠습니다.
Source: …
첫 번째 단서: 숫자가 이야기를 할 때
데이터를 열어보니 마치 두 개의 전혀 다른 세계를 보는 듯했다.
- 신용카드 거래: 사기 비율이 **0.5 %**에 불과 – 초록 바다 속의 작은 빨간 점들.
- 전자상거래 플랫폼: 거의 3건 중 1건이 사기 거래였다.
그때 나는 생각했다.
“우리가 어떻게 아직도 영업을 계속하고 있는 걸까?”
그 순간 나는 첫 번째 시각화를 만들었다—신용카드와 전자상거래 데이터의 사기율 차이를 보여주는 나란히 배치된 막대 그래프다. 시각적으로 보니 문제가 실제로 다가왔고, 단순한 숫자가 아니라 주목을 외치는 패턴이 되었다.

돌파구: 1시간 규칙
그것은 직감에서 시작되었습니다: “사기꾼이 빠르게 행동한다면 어떨까?”
간단한 계산을 만들었습니다: 계정 생성 시점부터 첫 구매까지 걸린 시간(시간). 이를 그래프로 나타냈을 때, 내 커피는 식어버렸습니다.
바로 그곳에—시작 부분에 거대한 급증이 있었습니다. 첫 시간 이내에 이루어진 거래는 99.5 %의 사기율을 보였으며, 이는 “가입 → 탈취 → 사라짐” 사례 6 685건에 해당합니다.
시각화된 그래프는 산처럼 보였지만, 정상이 왼쪽 끝으로 밀려 있었습니다. 너무 명확하고 뚜렷했습니다. 우리가 어떻게 이걸 놓쳤을까요?

사기 탐지기 구축
| 채널 | 모델 | 이유 | 결과 |
|---|---|---|---|
| 신용카드 | XGBoost | 복잡한 상호작용을 학습하는 강력한 앙상블 | 사기범 76명 적발, 오경보 15건 |
| 전자상거래 | Logistic Regression | 고객 대응 의사결정을 위한 높은 해석 가능성 | 명확한 설명과 함께 1 370건 사기 적발 (가능한 1 409건 대비) |
내 모델 비교 차트가 이야기를 전달한다—문제마다 다른 도구가 필요하다.

가장 흥미로운 부분: “왜?”를 묻다
SHAP을 사용하면 X‑ray 안경을 쓰는 느낌이었다. 갑자기 모델이 무엇을 생각하고 있는지 볼 수 있었다.
- 가장 중요한 예측 변수들은 내가 기대한 것이 아니었다. 익명화된 V4 특성이 가장 크게 작용했고, 그 다음은 우리 맞춤형 이상점수였다.
- 모델은 내가 전혀 살펴보지 않은 곳에서도 패턴을 찾아냈다.
진정한 마법은 개별 사례에 있었다. 잡힌 $257 사기에 대한 SHAP force plot을 통해 정확히 왜 그런지 추적할 수 있었다—시점, 이상한 V14 값, 그리고 새로운 계정 때문이다. 이것은 마법이 아니라 우리가 설명할 수 있는 수학이었다.

인사이트에서 행동으로: 우리가 진행하는 세 가지 변화
-
1‑시간 체크포인트
월요일부터, 가입 후 1시간 이내에 이루어지는 모든 구매는 부드러운 추가 인증 단계(예: “잠시, 본인 확인 부탁드려요?”)를 트리거합니다. 우리의 데이터에 따르면, 이 조치만으로도 수천 건의 사기 시도를 차단할 수 있습니다. -
스마트한 지리 정책
우리는 사기율이 충격적으로 높은 국가들을 발견했습니다(투르크메니스탄은 100%!). 전체 차단 대신, 지능적인 검증을 추가할 것입니다: 정상 고객은 통과하고, 사기꾼은 차단됩니다. -
동적 의사결정
우리의 혼동 행렬은 서로 다른 접근이 필요함을 보여줍니다.- 신용카드 채널: 정밀도 우선 — 플래그를 달기 전에 확실히 확인합니다.
- 이커머스 채널: 재현율 우선 — 설명 가능성을 유지하면서 더 많은 사기를 잡아냅니다.

비즈니스 영향 (또는: 내 급여를 정당화한 방법)
숫자 이야기
- 테스트 데이터 영향: $51,000 절감
- 월간 예상: $200,000+
- 연간 잠재력: 수백만
하지만 단순히 금전적인 문제만은 아닙니다—신뢰가 중요합니다. 이제 고객에게 거래가 왜 플래그되었는지 정확히 알려줄 수 있어, “시스템이 그렇게 말했어요”라는 블랙박스 느낌을 없앨 수 있습니다.
재무 영향 시각화 덕분에 경영진에게 10 초 만에 설득할 수 있었습니다.
What I Wish I Knew Then
- 단순함이 복잡함을 이긴다 – 1시간 규칙은 머신러닝 없이도 발견할 수 있었다.
- 설명 가능성이 중요하다 – 로지스틱 회귀가 전자상거래에서 승리한 이유는 방어할 수 있었기 때문이다.
- 사기꾼은 적응한다 – 오늘의 패턴은 내일의 과거가 된다.
큰 깨달음
가장 귀중한 통찰은 화려한 알고리즘에 있지 않았습니다. 간단한 질문을 하는 데 있었습니다:
“누군가 가입한 직후에 무슨 일이 일어날까요?”
때때로 가장 강력한 데이터 과학은 명백한 질문을 하고, 그 답이 너무 단순해 보여도 믿는 용기를 갖는 것입니다.
우리가 어떻게 했는지 보고 싶나요?
코드, 어려움, 그리고 축하가 모두 여기 있습니다:
당신에게 묻습니다: 데이터에서 발견한 가장 놀라운 패턴은 무엇인가요?
이 프로젝트 동안 커피 소비량: 47잔 ☕
후회: 전혀 없음
