[Paper] Venus:一种用于基于VLM的在线视频理解的高效边缘记忆与检索系统
发布: (2025年12月8日 GMT+8 17:32)
6 min read
原文: arXiv
Source: arXiv - 2512.07344v1
Overview
本文介绍了 Venus,一种新颖的边缘‑云系统,使设备能够在不产生过高延迟或带宽压力的情况下,使用视觉‑语言模型(VLM)实时理解视频流。通过将记忆构建和关键帧检索的重负载迁移到边缘,Venus 使基于 VLM 的实时视频分析在智能摄像头、AR 眼镜和自主机器人等设备端应用成为可能。
Key Contributions
- 以边缘为中心的记忆架构 – 在设备上直接构建并存储层次化的多模态关键帧记忆,显著减少云端往返次数。
- 两阶段处理流水线 – 包含 摄取阶段(持续对视频流进行分段和聚类)和 查询阶段(使用渐进采样算法检索相关帧)。
- 基于阈值的渐进采样 – 自适应地在检索帧的多样性与计算成本之间取得平衡,确保在满足延迟预算的前提下保持高推理准确性。
- 大量性能评估 – 表明相较于以往的云中心方法,端到端延迟降低 15×–131×,在保持或提升 VLM 推理质量的同时实现亚秒级响应。
Methodology
1. Ingestion Stage (Edge side)
- Scene segmentation 使用轻量级运动线索将输入视频划分为逻辑镜头。
- Clustering 在每个镜头内部对相似帧进行聚类;为每个簇选取一个代表性的 关键帧。
- Multimodal embedding:将每个关键帧送入紧凑的 VLM 编码器,得到联合视觉‑文本嵌入。
- Hierarchical memory construction:将嵌入存入多层索引(例如,按场景 → 按簇),实现快速查找并保持低内存占用。
2. Querying Stage (Cloud side)
- 将输入的文本查询(如 “show me when a person enters the room”)首先使用近似最近邻搜索在边缘记忆中 索引。
- Progressive sampling:从低成本阈值开始,系统逐步采样更具多样性的关键帧,直至满足置信度或延迟预算。
- 选中的帧被发送至云端 VLM 进行完整推理(字幕生成、检测等),最终答案返回给边缘设备。
该设计有意只将 轻量 任务(分段、聚类、嵌入)卸载到边缘,而将 重型 VLM 推理保留在云端,但仅针对极少且高度相关的帧进行。
Results & Findings
| Metric | Venus | Prior Art (cloud‑only) |
|---|---|---|
| End‑to‑end latency (average) | 0.8 s(实时) | 12 s – 100 s |
| Speedup factor | 15× – 131× | 1×(基线) |
| Reasoning accuracy (e.g., video QA F1) | 0.78 | 0.75 |
| Memory footprint on edge (per hour of video) | ≈ 120 MB | N/A(仅云端) |
Key takeaways
- 通过在 VLM 推理前裁剪帧集合,Venus 将网络流量削减 >90 %,并降低云端计算负载。
- 渐进采样算法能够保持甚至提升答案质量,因为它有意挑选信息丰富且多样的帧。
- 系统能够在普通边缘硬件上(如配备 4 GB RAM 的 ARM Cortex‑A78)支持多路并发视频流。
Practical Implications
- 智能监控 & IoT – 摄像头可在本地过滤无关画面,仅将最有价值的剪辑上传至云端分析,从而节省带宽和存储成本。
- AR/VR 头显 – 实时场景理解(物体识别、活动检测)在不耗电或不依赖高速持续连接的情况下变得可行。
- 机器人与自动驾驶 – 边缘记忆实现快速上下文检索(如 “上一次看到行人横穿马路是什么时候”),仅在必要时将复杂推理委托给云端。
- 开发者工作流 – Venus 提供可复用的 SDK,支持在边缘设备上接入任意 VLM 编码器,便于集成到现有流水线(如 TensorFlow Lite、ONNX Runtime)。
Limitations & Future Work
- Edge hardware constraints:摄取阶段仍假设具备适度的 GPU/NPU;超低功耗设备可能需要进一步模型压缩。
- Static memory granularity:当前的层次索引采用固定的场景/簇层级;自适应粒度有望提升对高度动态流的记忆效率。
- Privacy considerations:虽然传输的原始视频更少,但嵌入仍可能泄露敏感信息;未来工作可探索加密或差分隐私的嵌入方式。
- Generalization to other modalities:将 Venus 扩展至音视频或传感器融合流仍是一个开放方向。
总体而言,Venus 证明了通过将记忆构建与检索分离到边缘的系统设计,能够在生产环境中实现大规模视觉‑语言模型的实时视频理解。
Authors
- Shengyuan Ye
- Bei Ouyang
- Tianyi Qian
- Liekang Zeng
- Mu Yuan
- Xiaowen Chu
- Weijie Hong
- Xu Chen
Paper Information
- arXiv ID: 2512.07344v1
- Categories: cs.DC, cs.AI
- Published: December 8, 2025
- PDF: Download PDF