构建 Clusterflick:伦敦电影聚合平台
发布: (2026年2月7日 GMT+8 02:20)
2 分钟阅读
原文: Dev.to
Source: Dev.to
概览
我一直在做一个个人项目,叫 Clusterflick —— 为伦敦的每一家电影院提供统一的放映信息来源。目前它已覆盖 240 家场馆,整合了 5 个活动平台,抓取了 1,398 场活动和超过 30,000 场放映。最初只是想把电影院的放映时间快速写进我的日历,结果演变成一个在 GitHub Actions 上运行的数据管道、使用 Next.js 静态生成的站点,以及在客厅里的一组 Raspberry Pis。
挑战
- 电影匹配异常困难 —— 仅凭标题 + 年份或标题 + 导演往往不足以唯一确定一部电影。有些影院的列表信息太少,难以靠人工可靠识别。
- 在没有预算的情况下大规模爬取 —— GitHub runner 的 IP 会被封锁,所以现在使用 Raspberry Pi 集群来处理更棘手的来源。
- 使用 LLM 提升数据质量 —— 当模糊匹配失效时,大语言模型在针对 The Movie DB 进行模糊电影查询时表现出意外的实用性。
- 保持低成本 —— 整个系统几乎零基础设施费用:GitHub Actions 负责编排,Releases 充当存储,静态站点生成避免了托管费用。
开源
整个项目已在 GitHub 开源。如果你对类似的爬取、聚合或数据管道项目感兴趣,欢迎交流。