我在塞内加尔打造了一个真实的 AI 视频处理 SaaS，未使用 GPT 包装，仅使用 HuggingFace + OpenCV + YOLO + Detectron2 + Medidapie + Celery

发布: 2天前 (2026年5月3日 GMT+8 08:25)

3 分钟阅读

原文: Dev.to

Source: Dev.to

我要解决的问题

我认识的每位创作者都要手动剪辑视频 3–4 小时。
算法奖励的是产量，而不是完美。

解决方案概览

我构建了 ClipFarmer，这是一款 SaaS，使用本地部署的机器学习模型完整处理视频，而不是依赖第三方 API 包装。

机器学习模型

Whisper (HuggingFace) – 自动语音转录。
YOLO + OpenCV (cv2) – 场景检测。
Detectron2 – 实例分割。
MediaPipe – 姿态和面部关键点检测。
OpenCV (cv2) – 所有帧级操作的核心。

这些模型真实运行在本地；不调用外部 API。

效果管线

每个效果都是一个处理帧的 cv2 管线：

色彩分级（暗色调、复古颗粒、RGB 分离）
CRT 扫描线叠加
动态模糊
骨架叠加（MediaPipe 姿态）
背景移除（Detectron2 掩码）
使用帧混合实现剪辑之间的转场

架构

后端

FastAPI + Celery + RabbitMQ + Redis

AI / 计算机视觉栈

Whisper、YOLO、Detectron2、MediaPipe、OpenCV

存储

MinIO（自托管的兼容 S3、支持预签名上传）

前端

React + Vite + TailwindCSS

数据库

PostgreSQL + SQLAlchemy（异步）

部署

Docker Compose 部署在 VPS 上

任务编排

# Celery chord that runs the whole pipeline
workflow = chord(
    spliter_clip.s(job.job_id, input_path),
    workflow_tasks_parallel.s()
)
task_result = workflow()

工作流首先分割视频，然后并行应用效果、字幕和转场。

区域考虑（塞内加尔及西非）

移动支付（Wave、Orange Money）是主要支付方式；信用卡很少见。
ClipFarmer 原生支持 Wave 和 Orange Money。
当地很多 AI 工具要么是骗局，要么无法使用，因此提供本地托管的解决方案至关重要。

面临的挑战

模型之间的依赖冲突。
对于大视频文件，预签名上传是必须的。
没有适当的批处理，cv2 帧处理速度很慢。
Docker 网络有时会出乎意料地受限。

可用性

已上线 clipfarmer.site – 可免费获取测试额度。

征求反馈

我很好奇：还有人构建过基于 cv2 的处理管线吗？什么因素会让你从手动编辑转向像 ClipFarmer 这样的自动化解决方案？

我在塞内加尔打造了一个真实的 AI 视频处理 SaaS，未使用 GPT 包装，仅使用 HuggingFace + OpenCV + YOLO + Detectron2 + Medidapie + Celery

我要解决的问题

解决方案概览

机器学习模型

效果管线

架构

后端

AI / 计算机视觉栈

存储

前端

数据库

部署

任务编排

区域考虑（塞内加尔及西非）

面临的挑战

可用性

征求反馈

相关文章

计算套利：为何 API 路由是下一场大型基础设施布局

免费 GCP 练习考试（13 条认证路径及解释）

Codex /goal 和 OpenGUI：长时间运行的任务需要状态

‘我的数据传输账单费用怎么会这样？’: 当云经济出错时