从原型到生产：构建多模态视频搜索引擎

发布: 2周前 (2026年1月6日 GMT+8 18:46)

3 min read

Source: Dev.to

概览

在上一篇文章中，我通过组合 CLIP、Whisper 和 ArcFace，利用模型堆叠的方式实现了媒体搜索，能够通过视觉描述、对话和人脸来定位视频内容。假期期间，我把那个下午的 hack 改造成了一个更适合生产环境的系统。

你已经在不依赖元数据、时间码或精确措辞的情况下，精准定位到目标镜头。语义搜索是模糊匹配的——例如，转录文本写的是 “What it was telling him was that the US had launched their ICBMs”，而查询仍然能够匹配。

所有组件均通过 docker‑compose 编排。

后台增强 – 工作进程持续处理新文件，提取视觉、音频和人脸嵌入。
语义对话搜索 – 使用 sentence‑transformer 嵌入；如 “Americans launched missiles” 之类的查询能够检索到包含 “US fired rockets” 的剪辑。
帧级精确播放 – 通过 requestVideoFrameCallback() 将 HTML5 视频解码到 canvas。
EDL 导出 – 将选中的场景加入队列，导出 CMX 3600 编辑决策列表，以便在 NLE 中往返使用。
统一查询 – PostgreSQL + pgvector 使向量相似度与元数据过滤能够在单一查询中完成。

完整的源代码和 Docker 配置可在以下位置获取：