我在塞内加尔打造了一个真实的 AI 视频处理 SaaS,未使用 GPT 包装,仅使用 HuggingFace + OpenCV + YOLO + Detectron2 + Medidapie + Celery
发布: (2026年5月3日 GMT+8 08:25)
3 分钟阅读
原文: Dev.to
Source: Dev.to
我要解决的问题
我认识的每位创作者都要手动剪辑视频 3–4 小时。
算法奖励的是产量,而不是完美。
解决方案概览
我构建了 ClipFarmer,这是一款 SaaS,使用本地部署的机器学习模型完整处理视频,而不是依赖第三方 API 包装。
机器学习模型
- Whisper (HuggingFace) – 自动语音转录。
- YOLO + OpenCV (cv2) – 场景检测。
- Detectron2 – 实例分割。
- MediaPipe – 姿态和面部关键点检测。
- OpenCV (cv2) – 所有帧级操作的核心。
这些模型真实运行在本地;不调用外部 API。
效果管线
每个效果都是一个处理帧的 cv2 管线:
- 色彩分级(暗色调、复古颗粒、RGB 分离)
- CRT 扫描线叠加
- 动态模糊
- 骨架叠加(MediaPipe 姿态)
- 背景移除(Detectron2 掩码)
- 使用帧混合实现剪辑之间的转场
架构
后端
- FastAPI + Celery + RabbitMQ + Redis
AI / 计算机视觉栈
- Whisper、YOLO、Detectron2、MediaPipe、OpenCV
存储
- MinIO(自托管的兼容 S3、支持预签名上传)
前端
- React + Vite + TailwindCSS
数据库
- PostgreSQL + SQLAlchemy(异步)
部署
- Docker Compose 部署在 VPS 上
任务编排
# Celery chord that runs the whole pipeline
workflow = chord(
spliter_clip.s(job.job_id, input_path),
workflow_tasks_parallel.s()
)
task_result = workflow()
工作流首先分割视频,然后并行应用效果、字幕和转场。
区域考虑(塞内加尔及西非)
- 移动支付(Wave、Orange Money)是主要支付方式;信用卡很少见。
- ClipFarmer 原生支持 Wave 和 Orange Money。
- 当地很多 AI 工具要么是骗局,要么无法使用,因此提供本地托管的解决方案至关重要。
面临的挑战
- 模型之间的依赖冲突。
- 对于大视频文件,预签名上传是必须的。
- 没有适当的批处理,
cv2帧处理速度很慢。 - Docker 网络有时会出乎意料地受限。
可用性
已上线 clipfarmer.site – 可免费获取测试额度。
征求反馈
我很好奇:还有人构建过基于 cv2 的处理管线吗?什么因素会让你从手动编辑转向像 ClipFarmer 这样的自动化解决方案?