构建 Clusterflick：伦敦电影聚合平台

发布: 2个月前 (2026年2月7日 GMT+8 02:20)

2 分钟阅读

原文: Dev.to

Source: Dev.to

概览

我一直在做一个个人项目，叫 Clusterflick —— 为伦敦的每一家电影院提供统一的放映信息来源。目前它已覆盖 240 家场馆，整合了 5 个活动平台，抓取了 1,398 场活动和超过 30,000 场放映。最初只是想把电影院的放映时间快速写进我的日历，结果演变成一个在 GitHub Actions 上运行的数据管道、使用 Next.js 静态生成的站点，以及在客厅里的一组 Raspberry Pis。

挑战

电影匹配异常困难 —— 仅凭标题 + 年份或标题 + 导演往往不足以唯一确定一部电影。有些影院的列表信息太少，难以靠人工可靠识别。
在没有预算的情况下大规模爬取 —— GitHub runner 的 IP 会被封锁，所以现在使用 Raspberry Pi 集群来处理更棘手的来源。
使用 LLM 提升数据质量 —— 当模糊匹配失效时，大语言模型在针对 The Movie DB 进行模糊电影查询时表现出意外的实用性。
保持低成本 —— 整个系统几乎零基础设施费用：GitHub Actions 负责编排，Releases 充当存储，静态站点生成避免了托管费用。

开源

整个项目已在 GitHub 开源。如果你对类似的爬取、聚合或数据管道项目感兴趣，欢迎交流。

构建 Clusterflick：伦敦电影聚合平台

概览

挑战

开源

相关文章

你的 AI Agent 刚拿到信用卡：全新推出 x402 Bazaar

Smartfind.ai

如何在 2 分钟内同步 Claude Code、OpenClaw 和 Codex 的 AI 技能

API Gateway 对比 Gateway API