나는 모든 웹사이트에 'git log'를 만들었다 — diff와 AI 요약으로 변경 사항을 추적

발행: (2026년 3월 14일 오후 04:07 GMT+9)
2 분 소요
원문: Dev.to

Source: Dev.to

소개

웹사이트는 언제든지 바뀝니다—가격 페이지, 문서, 서비스 약관 등. 나는 git log처럼 URL에 대한 변경 사항을 알려주는 간단한 CLI가 필요했기에 crawldiff를 만들었습니다.

설치

pip install crawldiff

사이트 스냅샷 만들기

crawldiff crawl https://stripe.com/pricing

나중에 변경 사항 확인하기

crawldiff diff https://stripe.com/pricing --since 7d

기능

  • Git‑style diffs – 터미널에 색상이 입힌 통합 diff를 표시합니다.
  • AI summaries – Claude, GPT, 또는 Cloudflare Workers AI를 사용해 간결한 변경 요약을 생성합니다(예: “가격이 $25에서 $30으로 인상됐으며, 새로운 Enterprise 티어가 추가됨”).
  • Watch mode – URL을 지속적으로 모니터링합니다(예: crawldiff watch https://competitor.com --every 1h).
  • 다양한 출력 형식 – 터미널, JSON( jq/Slack에 파이프), Markdown 보고서.
  • 점진적 크롤링 – Cloudflare의 modifiedSince를 이용해 변경된 페이지만 가져옵니다.
  • 로컬 저장소 – 모든 스냅샷이 ~/.crawldiff/ 아래 SQLite에 저장됩니다.

기술 스택

  • Python 3.12
  • typer, rich, httpx
  • Cloudflare Browser Rendering /crawl API
  • difflib를 이용한 통합 diff
  • 로컬 스냅샷 저장을 위한 SQLite
  • 96개의 테스트, mypy strict, GitHub Actions CI

링크

  • GitHub:
  • PyPI:

궁금한 점이 있으면 언제든지 물어보세요!

0 조회
Back to Blog

관련 글

더 보기 »

Python에서 PDF 텍스트 추출 방법 (2026)

PDF에서 텍스트 추출 PDF에서 텍스트를 추출하는 것은 여전히 데이터 엔지니어링, AI 파이프라인 및 자동화 워크플로우에서 가장 일반적인 작업 중 하나입니다. Whether...

2025년에 Python 자동화로 돈 버는 방법

개발자로서 자동화(automation)와 그것이 프로세스(processes)를 간소화하고 효율성(efficiency)을 높이며 비용(costs)을 절감할 잠재력에 익숙할 것입니다. 하지만 …