나는 세네갈에서 GPT 래퍼 없이 HuggingFace, OpenCV, YOLO, Detectron2, Medidapie, Celery만으로 실제 AI 비디오 처리 SaaS를 만들었다
Source: Dev.to
내가 해결하고자 했던 문제
내가 아는 모든 크리에이터는 영상을 수동으로 3~4시간씩 잘라야 합니다.
알고리즘은 완벽함이 아니라 양을 보상합니다.
솔루션 개요
나는 ClipFarmer 라는 SaaS를 만들었습니다. 이 서비스는 서드파티 API 래퍼가 아니라 온‑프레미스 머신러닝 모델만으로 영상을 전처리합니다.
머신러닝 모델
- Whisper (HuggingFace) – 자동 음성 전사.
- YOLO + OpenCV (cv2) – 씬 감지.
- Detectron2 – 인스턴스 세그멘테이션.
- MediaPipe – 포즈 및 얼굴 랜드마크 감지.
- OpenCV (cv2) – 모든 프레임‑레벨 작업의 백본.
이 모델들은 모두 로컬에서 실제로 실행되며 외부 API 호출이 없습니다.
이펙트 파이프라인
각 이펙트는 cv2 파이프라인으로 프레임을 처리합니다:
- 컬러 그레이딩 (다크 무디, 빈티지 그레인, RGB 스플릿)
- CRT 스캔라인 오버레이
- 모션 블러
- 스켈레톤 오버레이 (MediaPipe 포즈)
- 배경 제거 (Detectron2 마스크)
- 프레임 블렌딩을 이용한 클립 간 전환
아키텍처
백엔드
- FastAPI + Celery + RabbitMQ + Redis
AI / 컴퓨터 비전 스택
- Whisper, YOLO, Detectron2, MediaPipe, OpenCV
스토리지
- MinIO (셀프‑호스팅 S3‑호환, 프리사인드 업로드)
프론트엔드
- React + Vite + TailwindCSS
데이터베이스
- PostgreSQL + SQLAlchemy (async)
배포
- Docker Compose 를 이용한 VPS
작업 오케스트레이션
# Celery chord that runs the whole pipeline
workflow = chord(
spliter_clip.s(job.job_id, input_path),
workflow_tasks_parallel.s()
)
task_result = workflow()
워크플로우는 먼저 영상을 분할하고, 그 다음 이펙트, 자막, 전환을 병렬로 적용합니다.
지역적 고려사항 (세네갈 & 서아프리카)
- 모바일 머니 (Wave, Orange Money)가 주요 결제 수단이며, 신용카드는 드뭅니다.
- ClipFarmer는 Wave와 Orange Money를 네이티브하게 지원합니다.
- 현지에서 보이는 많은 AI 도구가 사기이거나 접근이 어려워, 로컬 호스팅 솔루션을 제공하는 것이 중요합니다.
직면한 도전 과제
- 모델 간 충돌하는 ML 의존성.
- 대용량 영상 파일에 프리사인드 업로드가 필수.
cv2프레임 처리 속도가 배치 처리를 하지 않으면 느림.- Docker 네트워킹이 예상보다 제한적일 수 있음.
이용 가능 여부
clipfarmer.site 에서 실시간으로 확인 가능 — 테스트용 무료 크레딧이 제공됩니다.
피드백 요청
궁금합니다: cv2 기반 처리 파이프라인을 만든 사람 또 있나요? 수동 편집에서 ClipFarmer 같은 자동화 솔루션으로 전환하게 만들려면 어떤 점이 필요할까요?