스크래핑 241개 영국 지방자치단체 계획 포털 – 현재까지 260만 건의 결정
Source: Hacker News
스크래핑 문제
대부분의 영국 지방자치단체는 소수의 포털 시스템 중 하나를 사용하며, Idox가 가장 흔합니다. 이론적으로는 편리하지만 실제로는 각 지방자치단체마다 설정이 다릅니다. 일부는 TLS 지문 인식을 통해 비‑브라우저 요청을 차단하고, 일부는 10분 이내에 차단당하게 만드는 속도 제한을 두며, 소수는 맞춤형 ASP.NET 포털을 운영하고 있습니다.
나는 여러 스크래퍼를 작성했습니다:
- 표준
requests기반 스크래퍼 - 실제 브라우저처럼 보이지 않는 모든 것을 차단하는 지방자치단체를 위한 Playwright 기반 스크래퍼
- TLS 지문 인식을 위한
curl_cffi스크래퍼
몇몇 지방자치단체는 아직도 접근할 수 없습니다. 리버풀의 포털은 AWS WAF 뒤에 있으며 JavaScript 챌린지를 사용합니다. 나는 챌린지를 한 번 해결하고 쿠키를 재사용하는 작동하는 Playwright 기반 스크래퍼를 가지고 있지만, WAF가 약 10번의 요청 후에 IP를 속도 제한하고 하루 동안 차단합니다. 그래서 오래된 스크랩에서 60 k개의 리버풀 결정은 가지고 있지만, 더 추가할 쉬운 방법이 없습니다.
내가 발견한 것
승인율 통계는 대부분의 사람들이 찾는 것입니다. 전국적으로는 약 **88 %**이지만, 지방자치단체 내 구역별로 크게 차이가 납니다.
시간‑대‑결정 데이터에서 더 흥미로운 발견이 있었습니다. 영국과 웨일즈의 119개 지방자치단체를 대상으로:
- 2025년에 주택‑증축 신청의 **36.5 %**가 법정 8주 목표를 놓쳤으며, 2019년 **27.9 %**에서 증가했습니다.
- Guildford는 규모 면에서 최악이며, **66 %**의 결정이 목표를 초과했으며 평균 13.3주가 소요되었습니다.
현재 상황
- 무료 우편번호 확인기
- 유료 PDF 보고서 (£19 / £79)
지금까지 유료 고객은 없으며, 괜찮습니다—데이터 품질과 커버리지에 집중하고 있습니다.
사이트는 planninglens.co.uk 입니다. 둘러보고 싶다면 방문해 보세요.
AMA(Ask Me Anything) 스크래핑 쪽에 대해—그곳이 흥미로운 문제들이 있는 곳입니다.
댓글: https://news.ycombinator.com/item?id=47931470 (Points: 29)