나는 세네갈에서 GPT 래퍼 없이 HuggingFace, OpenCV, YOLO, Detectron2, Medidapie, Celery만으로 실제 AI 비디오 처리 SaaS를 만들었다

발행: (2026년 5월 3일 AM 09:25 GMT+9)
4 분 소요
원문: Dev.to

Source: Dev.to

내가 해결하고자 했던 문제

내가 아는 모든 크리에이터는 영상을 수동으로 3~4시간씩 잘라야 합니다.
알고리즘은 완벽함이 아니라 양을 보상합니다.

솔루션 개요

나는 ClipFarmer 라는 SaaS를 만들었습니다. 이 서비스는 서드파티 API 래퍼가 아니라 온‑프레미스 머신러닝 모델만으로 영상을 전처리합니다.

머신러닝 모델

  • Whisper (HuggingFace) – 자동 음성 전사.
  • YOLO + OpenCV (cv2) – 씬 감지.
  • Detectron2 – 인스턴스 세그멘테이션.
  • MediaPipe – 포즈 및 얼굴 랜드마크 감지.
  • OpenCV (cv2) – 모든 프레임‑레벨 작업의 백본.

이 모델들은 모두 로컬에서 실제로 실행되며 외부 API 호출이 없습니다.

이펙트 파이프라인

각 이펙트는 cv2 파이프라인으로 프레임을 처리합니다:

  • 컬러 그레이딩 (다크 무디, 빈티지 그레인, RGB 스플릿)
  • CRT 스캔라인 오버레이
  • 모션 블러
  • 스켈레톤 오버레이 (MediaPipe 포즈)
  • 배경 제거 (Detectron2 마스크)
  • 프레임 블렌딩을 이용한 클립 간 전환

아키텍처

백엔드

  • FastAPI + Celery + RabbitMQ + Redis

AI / 컴퓨터 비전 스택

  • Whisper, YOLO, Detectron2, MediaPipe, OpenCV

스토리지

  • MinIO (셀프‑호스팅 S3‑호환, 프리사인드 업로드)

프론트엔드

  • React + Vite + TailwindCSS

데이터베이스

  • PostgreSQL + SQLAlchemy (async)

배포

  • Docker Compose 를 이용한 VPS

작업 오케스트레이션

# Celery chord that runs the whole pipeline
workflow = chord(
    spliter_clip.s(job.job_id, input_path),
    workflow_tasks_parallel.s()
)
task_result = workflow()

워크플로우는 먼저 영상을 분할하고, 그 다음 이펙트, 자막, 전환을 병렬로 적용합니다.

지역적 고려사항 (세네갈 & 서아프리카)

  • 모바일 머니 (Wave, Orange Money)가 주요 결제 수단이며, 신용카드는 드뭅니다.
  • ClipFarmer는 Wave와 Orange Money를 네이티브하게 지원합니다.
  • 현지에서 보이는 많은 AI 도구가 사기이거나 접근이 어려워, 로컬 호스팅 솔루션을 제공하는 것이 중요합니다.

직면한 도전 과제

  • 모델 간 충돌하는 ML 의존성.
  • 대용량 영상 파일에 프리사인드 업로드가 필수.
  • cv2 프레임 처리 속도가 배치 처리를 하지 않으면 느림.
  • Docker 네트워킹이 예상보다 제한적일 수 있음.

이용 가능 여부

clipfarmer.site 에서 실시간으로 확인 가능 — 테스트용 무료 크레딧이 제공됩니다.

피드백 요청

궁금합니다: cv2 기반 처리 파이프라인을 만든 사람 또 있나요? 수동 편집에서 ClipFarmer 같은 자동화 솔루션으로 전환하게 만들려면 어떤 점이 필요할까요?

0 조회
Back to Blog

관련 글

더 보기 »