이게 실제로 당신의 Website를 강타하고 있는 것 (힌트: 사람은 아님)
Source: Dev.to

Time Frame
- Start: 2026-03-31 10:00 UTC
- End: 2026-04-02 10:00 UTC
All requests within that window were grouped by path patterns and behavior.
번역:
시간 범위
- 시작: 2026-03-31 10:00 UTC
- 종료: 2026-04-02 10:00 UTC
해당 기간 내 모든 요청은 경로 패턴 및 동작별로 그룹화되었습니다.
트래픽 분석
요청은 네 가지 범주로 분류되었습니다:
- WordPress 탐색 (
wp가 포함된 경로) - XMLRPC 접근 시도
- PHP 엔드포인트 탐색
- 일반 스캔 및 열거
결과
- WordPress 탐색: 34 %
- XMLRPC 시도: 18 %
- PHP 탐색: 27 %
- 기타 스캔: 21 %
대략 **79 %**의 요청은 정상 사용자 활동이 아니었습니다.
활성 IP 샘플
IP 주소와 가장 높은 요청량 또는 반복적인 공격 패턴을 보인 IP들의 일부:
| IP 주소 | 관찰된 활동 |
|---|---|
| 185.220.101.45 | WordPress 로그인 무차별 공격 패턴 |
| 45.146.165.12 | XMLRPC 핑백 시도 |
| 103.248.70.33 | PHP 엔드포인트 스캔 |
| 91.134.23.198 | 다중 경로 탐색 (/admin, /login, /.env) |
| 176.65.148.92 | 봇넷 행동과 일치하는 고빈도 요청 |
| 198.54.117.210 | 자격 증명 채우기 시도 |
| 5.188.62.76 | 알려진 스캐너 시그니처 패턴 |
| 194.147.142.88 | 반복적인 wp-login 접근 |
| 212.83.150.120 | PHPMyAdmin 탐색 |
| 139.59.37.12 | 공격 시그니처를 가진 일반 크롤러 |
이 중 다수는 48시간 동안 수백에서 수천 건의 요청을 생성했습니다.
관찰된 공격 패턴
WordPress 탐색
WordPress가 아닌 시스템에서도 다음 경로가 반복적으로 요청되었습니다:
/wp-login.php/wp-admin//wp-content/plugins/
이는 자동화된 스캔이며, 특정 대상을 겨냥한 행동은 아닙니다.
XMLRPC 접근
다음 경로에 대한 빈번한 요청:
/xmlrpc.php
주요 사용 사례로는 pingback 악용 및 API 엔드포인트를 통한 무차별 대입 공격이 있습니다.
PHP 파일 탐색
일반적인 설정 파일 및 진입점을 대상으로 한 요청:
/index.php/config.php/.env/db.php
이는 노출된 설정 파일이나 취약한 배포를 찾기 위한 시도입니다.
자격 증명 스터핑
다음 경로에 대한 반복적인 요청:
/login/admin/api/auth
대개 높은 빈도와 IP 회전을 동반합니다.
이것이 의미하는 바
- 트래픽 양이 과대 평가될 수 있습니다
- 참여 지표가 오해를 불러일으킬 수 있습니다
- 인프라가 불필요한 부하를 처리하고 있을 수 있습니다
더 중요한 점은, 이 트래픽은 지속적이라는 것입니다. 가시성이나 인기도와 연결되지 않습니다. 노출된 서비스라면 모두 이 트래픽을 받게 됩니다.
내부 응답
여러 시스템에서 이를 확인한 후, 각 사이트를 개별적으로 다루는 대신 데이터를 집계하기 시작했습니다.
접근 방식
- 여러 배포 환경에서 IP 추적
- 요청 패턴을 기반으로 행동 분류
- 반복 위반자 식별
- 공유된 관찰을 바탕으로 차단 규칙 적용
이렇게 하여 간단한 공유 위협 데이터셋으로 발전했습니다.
위협 네트워크 개념
사이트별로 대응하는 대신:
- 한 시스템에서 플래그된 IP가 다른 시스템에도 알려짐
- WordPress 탐색이나 XMLRPC 남용과 같은 패턴이 분류됨
- 반복되는 행동이 분류에 대한 신뢰도를 높임
차단 결정이 더 빠르고 일관되게 이루어져 중복 분석을 줄이고 완화 속도가 빨라집니다.
결과
이 데이터를 기반으로 필터링을 적용한 후:
- 더 깔끔한 트래픽 메트릭
- 불필요한 요청 감소
- 로그의 잡음 감소
- 실제 사용자에 대한 가시성 향상
마무리
이 데이터셋의 주요 결론은 간단합니다: 공용 웹 서비스로 들어오는 트래픽의 상당 부분이 자동화된 것이며 사용자에 의해 발생된 것이 아닙니다.
이 데이터는 소수의 시스템에서 48시간이라는 제한된 기간 동안 수집된 것입니다. 패턴은 달라질 수 있지만, 자동 스캔이 존재한다는 점은 일관됩니다.
이러한 가시성을 테스트하거나 추가 데이터를 제공하고 싶다면, 저는 이 접근법을 기반으로 작은 베타 프로그램을 진행하고 있습니다.