나는 세네갈에서 GPT 래퍼 없이 HuggingFace, OpenCV, YOLO, Detectron2, Medidapie, Celery만으로 실제 AI 비디오 처리 SaaS를 만들었다

발행: 2일 전 (2026년 5월 3일 AM 09:25 GMT+9)

4 분 소요

원문: Dev.to

Source: Dev.to

내가 해결하고자 했던 문제

내가 아는 모든 크리에이터는 영상을 수동으로 3~4시간씩 잘라야 합니다.
알고리즘은 완벽함이 아니라 양을 보상합니다.

솔루션 개요

나는 ClipFarmer 라는 SaaS를 만들었습니다. 이 서비스는 서드파티 API 래퍼가 아니라 온‑프레미스 머신러닝 모델만으로 영상을 전처리합니다.

머신러닝 모델

Whisper (HuggingFace) – 자동 음성 전사.
YOLO + OpenCV (cv2) – 씬 감지.
Detectron2 – 인스턴스 세그멘테이션.
MediaPipe – 포즈 및 얼굴 랜드마크 감지.
OpenCV (cv2) – 모든 프레임‑레벨 작업의 백본.

이 모델들은 모두 로컬에서 실제로 실행되며 외부 API 호출이 없습니다.

이펙트 파이프라인

각 이펙트는 cv2 파이프라인으로 프레임을 처리합니다:

컬러 그레이딩 (다크 무디, 빈티지 그레인, RGB 스플릿)
CRT 스캔라인 오버레이
모션 블러
스켈레톤 오버레이 (MediaPipe 포즈)
배경 제거 (Detectron2 마스크)
프레임 블렌딩을 이용한 클립 간 전환

아키텍처

백엔드

FastAPI + Celery + RabbitMQ + Redis

AI / 컴퓨터 비전 스택

Whisper, YOLO, Detectron2, MediaPipe, OpenCV

스토리지

MinIO (셀프‑호스팅 S3‑호환, 프리사인드 업로드)

프론트엔드

React + Vite + TailwindCSS

데이터베이스

PostgreSQL + SQLAlchemy (async)

배포

Docker Compose 를 이용한 VPS

작업 오케스트레이션

# Celery chord that runs the whole pipeline
workflow = chord(
    spliter_clip.s(job.job_id, input_path),
    workflow_tasks_parallel.s()
)
task_result = workflow()

워크플로우는 먼저 영상을 분할하고, 그 다음 이펙트, 자막, 전환을 병렬로 적용합니다.

지역적 고려사항 (세네갈 & 서아프리카)

모바일 머니 (Wave, Orange Money)가 주요 결제 수단이며, 신용카드는 드뭅니다.
ClipFarmer는 Wave와 Orange Money를 네이티브하게 지원합니다.
현지에서 보이는 많은 AI 도구가 사기이거나 접근이 어려워, 로컬 호스팅 솔루션을 제공하는 것이 중요합니다.

직면한 도전 과제

모델 간 충돌하는 ML 의존성.
대용량 영상 파일에 프리사인드 업로드가 필수.
cv2 프레임 처리 속도가 배치 처리를 하지 않으면 느림.
Docker 네트워킹이 예상보다 제한적일 수 있음.

이용 가능 여부

clipfarmer.site 에서 실시간으로 확인 가능 — 테스트용 무료 크레딧이 제공됩니다.

피드백 요청

궁금합니다: cv2 기반 처리 파이프라인을 만든 사람 또 있나요? 수동 편집에서 ClipFarmer 같은 자동화 솔루션으로 전환하게 만들려면 어떤 점이 필요할까요?