我在塞内加尔打造了一个真实的 AI 视频处理 SaaS,未使用 GPT 包装,仅使用 HuggingFace + OpenCV + YOLO + Detectron2 + Medidapie + Celery

发布: (2026年5月3日 GMT+8 08:25)
3 分钟阅读
原文: Dev.to

Source: Dev.to

我要解决的问题

我认识的每位创作者都要手动剪辑视频 3–4 小时。
算法奖励的是产量,而不是完美。

解决方案概览

我构建了 ClipFarmer,这是一款 SaaS,使用本地部署的机器学习模型完整处理视频,而不是依赖第三方 API 包装。

机器学习模型

  • Whisper (HuggingFace) – 自动语音转录。
  • YOLO + OpenCV (cv2) – 场景检测。
  • Detectron2 – 实例分割。
  • MediaPipe – 姿态和面部关键点检测。
  • OpenCV (cv2) – 所有帧级操作的核心。

这些模型真实运行在本地;不调用外部 API。

效果管线

每个效果都是一个处理帧的 cv2 管线:

  • 色彩分级(暗色调、复古颗粒、RGB 分离)
  • CRT 扫描线叠加
  • 动态模糊
  • 骨架叠加(MediaPipe 姿态)
  • 背景移除(Detectron2 掩码)
  • 使用帧混合实现剪辑之间的转场

架构

后端

  • FastAPI + Celery + RabbitMQ + Redis

AI / 计算机视觉栈

  • Whisper、YOLO、Detectron2、MediaPipe、OpenCV

存储

  • MinIO(自托管的兼容 S3、支持预签名上传)

前端

  • React + Vite + TailwindCSS

数据库

  • PostgreSQL + SQLAlchemy(异步)

部署

  • Docker Compose 部署在 VPS 上

任务编排

# Celery chord that runs the whole pipeline
workflow = chord(
    spliter_clip.s(job.job_id, input_path),
    workflow_tasks_parallel.s()
)
task_result = workflow()

工作流首先分割视频,然后并行应用效果、字幕和转场。

区域考虑(塞内加尔及西非)

  • 移动支付(Wave、Orange Money)是主要支付方式;信用卡很少见。
  • ClipFarmer 原生支持 Wave 和 Orange Money。
  • 当地很多 AI 工具要么是骗局,要么无法使用,因此提供本地托管的解决方案至关重要。

面临的挑战

  • 模型之间的依赖冲突
  • 对于大视频文件,预签名上传是必须的。
  • 没有适当的批处理,cv2 帧处理速度很慢。
  • Docker 网络有时会出乎意料地受限。

可用性

已上线 clipfarmer.site – 可免费获取测试额度。

征求反馈

我很好奇:还有人构建过基于 cv2 的处理管线吗?什么因素会让你从手动编辑转向像 ClipFarmer 这样的自动化解决方案?

0 浏览
Back to Blog

相关文章

阅读更多 »