내가 우리 데이터에 숨은 1,370명의 사기꾼을 찾아낸 방법 (그리고 우리 회사에 $51,000 절감)

발행: (2025년 12월 30일 오전 08:57 GMT+9)
9 min read
원문: Dev.to

Source: Dev.to – How I found 1,370 fraudsters hiding in our data and saved my company $51,000

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 한국어로 번역해 드리겠습니다.

Source:

첫 번째 단서: 숫자가 이야기를 할 때

데이터를 열어보니 마치 두 개의 전혀 다른 세계를 보는 듯했다.

  • 신용카드 거래: 사기 비율이 **0.5 %**에 불과 – 초록 바다 속의 작은 빨간 점들.
  • 전자상거래 플랫폼: 거의 3건 중 1건이 사기 거래였다.

그때 나는 생각했다.

“우리가 어떻게 아직도 영업을 계속하고 있는 걸까?”

그 순간 나는 첫 번째 시각화를 만들었다—신용카드와 전자상거래 데이터의 사기율 차이를 보여주는 나란히 배치된 막대 그래프다. 시각적으로 보니 문제가 실제로 다가왔고, 단순한 숫자가 아니라 주목을 외치는 패턴이 되었다.

Side‑by‑side bar chart of fraud rates in credit‑card vs. e‑commerce data

돌파구: 1시간 규칙

그것은 직감에서 시작되었습니다: “사기꾼이 빠르게 행동한다면 어떨까?”

간단한 계산을 만들었습니다: 계정 생성 시점부터 첫 구매까지 걸린 시간(시간). 이를 그래프로 나타냈을 때, 내 커피는 식어버렸습니다.

바로 그곳에—시작 부분에 거대한 급증이 있었습니다. 첫 시간 이내에 이루어진 거래는 99.5 %의 사기율을 보였으며, 이는 “가입 → 탈취 → 사라짐” 사례 6 685건에 해당합니다.

시각화된 그래프는 산처럼 보였지만, 정상이 왼쪽 끝으로 밀려 있었습니다. 너무 명확하고 뚜렷했습니다. 우리가 어떻게 이걸 놓쳤을까요?

Histogram of fraud rate by hours since account creation

사기 탐지기 구축

채널모델이유결과
신용카드XGBoost복잡한 상호작용을 학습하는 강력한 앙상블사기범 76명 적발, 오경보 15건
전자상거래Logistic Regression고객 대응 의사결정을 위한 높은 해석 가능성명확한 설명과 함께 1 370건 사기 적발 (가능한 1 409건 대비)

내 모델 비교 차트가 이야기를 전달한다—문제마다 다른 도구가 필요하다.

신용카드 및 전자상거래 사기 탐지를 위한 모델 비교 차트

가장 흥미로운 부분: “왜?”를 묻다

SHAP을 사용하면 X‑ray 안경을 쓰는 느낌이었다. 갑자기 모델이 무엇을 생각하고 있는지 볼 수 있었다.

  • 가장 중요한 예측 변수들은 내가 기대한 것이 아니었다. 익명화된 V4 특성이 가장 크게 작용했고, 그 다음은 우리 맞춤형 이상점수였다.
  • 모델은 내가 전혀 살펴보지 않은 곳에서도 패턴을 찾아냈다.

진정한 마법은 개별 사례에 있었다. 잡힌 $257 사기에 대한 SHAP force plot을 통해 정확히 왜 그런지 추적할 수 있었다—시점, 이상한 V14 값, 그리고 새로운 계정 때문이다. 이것은 마법이 아니라 우리가 설명할 수 있는 수학이었다.

SHAP force plot for a $257 fraud case

인사이트에서 행동으로: 우리가 진행하는 세 가지 변화

  1. 1‑시간 체크포인트
    월요일부터, 가입 후 1시간 이내에 이루어지는 모든 구매는 부드러운 추가 인증 단계(예: “잠시, 본인 확인 부탁드려요?”)를 트리거합니다. 우리의 데이터에 따르면, 이 조치만으로도 수천 건의 사기 시도를 차단할 수 있습니다.

  2. 스마트한 지리 정책
    우리는 사기율이 충격적으로 높은 국가들을 발견했습니다(투르크메니스탄은 100%!). 전체 차단 대신, 지능적인 검증을 추가할 것입니다: 정상 고객은 통과하고, 사기꾼은 차단됩니다.

  3. 동적 의사결정
    우리의 혼동 행렬은 서로 다른 접근이 필요함을 보여줍니다.

    • 신용카드 채널: 정밀도 우선 — 플래그를 달기 전에 확실히 확인합니다.
    • 이커머스 채널: 재현율 우선 — 설명 가능성을 유지하면서 더 많은 사기를 잡아냅니다.

Confusion matrices for credit‑card and e‑commerce models

비즈니스 영향 (또는: 내 급여를 정당화한 방법)

숫자 이야기

  • 테스트 데이터 영향: $51,000 절감
  • 월간 예상: $200,000+
  • 연간 잠재력: 수백만

하지만 단순히 금전적인 문제만은 아닙니다—신뢰가 중요합니다. 이제 고객에게 거래가 왜 플래그되었는지 정확히 알려줄 수 있어, “시스템이 그렇게 말했어요”라는 블랙박스 느낌을 없앨 수 있습니다.

재무 영향 시각화 덕분에 경영진에게 10 초 만에 설득할 수 있었습니다.

Financial impact visualization

What I Wish I Knew Then

  • 단순함이 복잡함을 이긴다 – 1시간 규칙은 머신러닝 없이도 발견할 수 있었다.
  • 설명 가능성이 중요하다 – 로지스틱 회귀가 전자상거래에서 승리한 이유는 방어할 수 있었기 때문이다.
  • 사기꾼은 적응한다 – 오늘의 패턴은 내일의 과거가 된다.

큰 깨달음

가장 귀중한 통찰은 화려한 알고리즘에 있지 않았습니다. 간단한 질문을 하는 데 있었습니다:

“누군가 가입한 직후에 무슨 일이 일어날까요?”

때때로 가장 강력한 데이터 과학은 명백한 질문을 하고, 그 답이 너무 단순해 보여도 믿는 용기를 갖는 것입니다.

우리가 어떻게 했는지 보고 싶나요?
코드, 어려움, 그리고 축하가 모두 여기 있습니다:

당신에게 묻습니다: 데이터에서 발견한 가장 놀라운 패턴은 무엇인가요?

이 프로젝트 동안 커피 소비량: 47잔 ☕
후회: 전혀 없음

Back to Blog

관련 글

더 보기 »

첫 원리에서 AI 재고하기

!NiceTryWiseGuyhttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads...