클러스터플릭 구축: 런던 시네마 애그리게이터

발행: (2026년 2월 7일 오전 03:20 GMT+9)
3 분 소요
원문: Dev.to

Source: Dev.to

Overview

저는 Clusterflick이라는 개인 프로젝트를 진행하고 있습니다 — 런던 전역의 모든 영화 상영 정보를 한 곳에서 제공하는 서비스입니다. 현재 5개의 이벤트 플랫폼에 걸쳐 240개의 장소를 추적하며, 1,398개의 이벤트와 30,000개가 넘는 상영 정보를 수집하고 있습니다. 캘린더에 영화 시간을 넣고 싶다는 단순한 욕구에서 시작했지만, 곧 GitHub Actions에서 실행되는 전체 데이터 파이프라인, 정적으로 생성된 Next.js 사이트, 그리고 거실에 배치한 Raspberry Pi 클러스터로 확장되었습니다.

Challenges

  • 영화 매칭은 겉보기보다 어렵다 – 제목 + 연도 혹은 제목 + 감독만으로는 영화를 고유하게 식별하기에 충분하지 않은 경우가 많습니다. 일부 영화관 목록은 인간이 신뢰할 수 있게 식별하기에 정보가 너무 부족합니다.
  • 예산 없이 대규모 스크래핑 – GitHub 러너 IP가 차단되기 때문에 이제 Raspberry Pi 클러스터가 더 까다로운 소스를 처리합니다.
  • 데이터 품질을 위한 LLM 활용 – 퍼지 매칭이 부족할 때, 대형 언어 모델이 The Movie DB와의 모호한 영화 검색을 해결하는 데 놀라울 정도로 유용함이 입증되었습니다.
  • 저렴하게 유지 – 전체 시스템은 거의 비용이 들지 않는 인프라로 운영됩니다: 오케스트레이션은 GitHub Actions, 저장소는 Releases, 호스팅 비용을 피하기 위해 정적 사이트 생성 방식을 사용합니다.

Open Source

전체 프로젝트는 GitHub에 오픈 소스로 공개되어 있습니다. 이 내용이 흥미롭다면, 유사한 스크래핑, 집계, 혹은 데이터 파이프라인 프로젝트를 진행하고 있는 분들의 이야기를 듣고 싶습니다.

Back to Blog

관련 글

더 보기 »

시계열 예측: 전통적 방법과 ML 접근법

시계열 예측: 전통적 접근법과 ML 접근법을 활용한 신뢰할 수 있는 예측 시스템 구축 상상해 보세요: 블랙 프라이데이 기간에 귀하의 e‑commerce 플랫폼이 갑자기 다운되는 상황을.