构建 Clusterflick:伦敦电影聚合平台

发布: (2026年2月7日 GMT+8 02:20)
2 分钟阅读
原文: Dev.to

Source: Dev.to

概览

我一直在做一个个人项目,叫 Clusterflick —— 为伦敦的每一家电影院提供统一的放映信息来源。目前它已覆盖 240 家场馆,整合了 5 个活动平台,抓取了 1,398 场活动和超过 30,000 场放映。最初只是想把电影院的放映时间快速写进我的日历,结果演变成一个在 GitHub Actions 上运行的数据管道、使用 Next.js 静态生成的站点,以及在客厅里的一组 Raspberry Pis。

挑战

  • 电影匹配异常困难 —— 仅凭标题 + 年份或标题 + 导演往往不足以唯一确定一部电影。有些影院的列表信息太少,难以靠人工可靠识别。
  • 在没有预算的情况下大规模爬取 —— GitHub runner 的 IP 会被封锁,所以现在使用 Raspberry Pi 集群来处理更棘手的来源。
  • 使用 LLM 提升数据质量 —— 当模糊匹配失效时,大语言模型在针对 The Movie DB 进行模糊电影查询时表现出意外的实用性。
  • 保持低成本 —— 整个系统几乎零基础设施费用:GitHub Actions 负责编排,Releases 充当存储,静态站点生成避免了托管费用。

开源

整个项目已在 GitHub 开源。如果你对类似的爬取、聚合或数据管道项目感兴趣,欢迎交流。

Back to Blog

相关文章

阅读更多 »

量子安全计算的不安全性

量子隐私:为何某些量子技巧无法保护秘密安全 人们曾希望量子技术能够阻止陌生人窃取秘密,就像智能卡……