爬取 241 个英国议会规划门户 – 迄今 260 万条决策

发布: (2026年4月28日 GMT+8 15:34)
3 分钟阅读

Source: Hacker News

抓取问题

大多数英国议会使用少数几种门户系统,其中 Idox 最为常见。理论上这应该让事情变得简单,但实际上每个议会的配置都不一样。有的通过 TLS 指纹阻止非浏览器请求,有的设有速率限制,10 分钟内就会把你封禁,还有少数使用定制的 ASP.NET 门户。

我最终写了几个抓取器:

  • 基于 requests 的标准抓取器
  • 针对阻止非真实浏览器请求的议会使用的 Playwright 抓取器
  • 用于 TLS 指纹的 curl_cffi 抓取器

仍有一些议会我抓取不到。利物浦的门户在 AWS WAF 之后还有 JavaScript 挑战。我有一个能一次性通过挑战并复用 Cookie 的 Playwright 抓取器,但 WAF 在大约 10 次请求后就会对 IP 进行速率限制,随后封禁我一天。因此我只有 6 万条来自旧抓取的利物浦决定,且没有简便的方式再补充。

我发现的情况

批准率统计是大多数人关注的指标。全国大约为 88 %,但在同一议会内部的不同选区之间差异很大,而不仅仅是议会之间的差异。

更有意思的发现来自于决策时间数据。对 119 个英格兰和威尔士议会的统计显示:

  • 36.5 % 的住宅扩建申请在 2025 年未能在法定的 8 周目标内完成,而 2019 年这一比例为 27.9 %
  • Guildford 在规模上表现最差:66 % 的决定超出目标,平均耗时 13.3 周

现在的情况

  • 免费的邮编检查工具
  • 收费的 PDF 报告(£19 / £79)

目前还没有付费客户,这没关系——我专注于数据质量和覆盖范围。

如果你想看看,可以访问 planninglens.co.uk

AMA(Ask Me Anything)关于抓取方面的——那才是有趣的问题所在。


Comments: https://news.ycombinator.com/item?id=47931470 (Points: 29)

0 浏览
Back to Blog

相关文章

阅读更多 »

德国在弹药产能上超越美国

德国现在能够生产比美国更多的弹药,德国国防巨头Rheinmetall负责人如此表示,随着一场大规模的重新武装运动正在进行……

当互联网还是一个地方

互联网作为一个场所——过去与现在 不久前,互联网是你去访问的地方。家庭 desktop 放在指定的壁橱或后 office……