爬取 241 个英国议会规划门户 – 迄今 260 万条决策
Source: Hacker News
抓取问题
大多数英国议会使用少数几种门户系统,其中 Idox 最为常见。理论上这应该让事情变得简单,但实际上每个议会的配置都不一样。有的通过 TLS 指纹阻止非浏览器请求,有的设有速率限制,10 分钟内就会把你封禁,还有少数使用定制的 ASP.NET 门户。
我最终写了几个抓取器:
- 基于
requests的标准抓取器 - 针对阻止非真实浏览器请求的议会使用的 Playwright 抓取器
- 用于 TLS 指纹的
curl_cffi抓取器
仍有一些议会我抓取不到。利物浦的门户在 AWS WAF 之后还有 JavaScript 挑战。我有一个能一次性通过挑战并复用 Cookie 的 Playwright 抓取器,但 WAF 在大约 10 次请求后就会对 IP 进行速率限制,随后封禁我一天。因此我只有 6 万条来自旧抓取的利物浦决定,且没有简便的方式再补充。
我发现的情况
批准率统计是大多数人关注的指标。全国大约为 88 %,但在同一议会内部的不同选区之间差异很大,而不仅仅是议会之间的差异。
更有意思的发现来自于决策时间数据。对 119 个英格兰和威尔士议会的统计显示:
- 36.5 % 的住宅扩建申请在 2025 年未能在法定的 8 周目标内完成,而 2019 年这一比例为 27.9 %。
- Guildford 在规模上表现最差:66 % 的决定超出目标,平均耗时 13.3 周。
现在的情况
- 免费的邮编检查工具
- 收费的 PDF 报告(£19 / £79)
目前还没有付费客户,这没关系——我专注于数据质量和覆盖范围。
如果你想看看,可以访问 planninglens.co.uk。
AMA(Ask Me Anything)关于抓取方面的——那才是有趣的问题所在。
Comments: https://news.ycombinator.com/item?id=47931470 (Points: 29)