[Paper] LinkedOut:从 Video LLM 中链接世界知识表示以实现下一代视频推荐
Source: arXiv - 2512.16891v1
概述
论文《LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next‑Generation Video Recommendation》解决了一个实际障碍:将视频大语言模型(VLLM)强大且富含知识的推理能力转化为快速、可扩展的视频推荐引擎。作者通过直接从原始视频帧中提取全新的“LinkedOut”表示,弥合了世界知识感知与真实场景推荐系统对低延迟、多视频处理需求之间的鸿沟。
关键贡献
- LinkedOut 表示:一种 token 级、知识感知的嵌入,从原始帧中提取,保留细粒度视觉细节的同时注入 VLLM 世界知识。
- 基于提示的 token 提取:使用轻量级、查询式提示(以及可选的辅助信号)在不进行完整语言生成的情况下抽取语义相关的 token。
- 跨层知识融合 MoE:一种混合专家模块,能够为每个推荐查询动态选择 VLLM 深层特征层次结构中最合适的抽象层级。
- 多视频历史支持:该架构原生接受用户观看视频序列,实现一次前向传播即可进行个性化推荐。
- 在标准视频推荐基准上实现 state‑of‑the‑art 结果,超越之前的 VLLM 基础和经典基线,同时提供数量级更低的推理延迟。
- 可解释性分析:展示融合层的 token 可以追溯到具体的视觉概念,为推荐提供透明的推理依据。
Methodology
-
Frame‑level tokenization – 将原始视频帧输入预训练的 VLLM(例如 Flamingo‑style)。模型不生成完整句子,而是使用诸如 “object present?”(是否存在目标?)、“scene mood?”(场景情绪?)或 “action type?”(动作类型?)等简短查询进行提示。VLLM 返回一组 knowledge‑aware tokens(向量嵌入),这些嵌入同时捕捉视觉线索和模型的世界知识先验。
-
Layer‑wise feature harvesting – VLLM 在多个 Transformer 层上产生层次化特征。浅层编码低级纹理;深层捕获高级语义和外部知识。作者将所有这些层暴露给下游处理。
-
Cross‑layer Fusion MoE – 一个轻量级的 Mixture‑of‑Experts 网络为每个 token 学习哪个层的表示在当前推荐上下文(例如用户画像、观看历史)中最有用。MoE 门控在端到端训练中优化,使系统能够自动平衡细节与抽象。
-
Multi‑video aggregation – 将用户最近观看的视频历史中的 token 进行拼接,并通过一个简单的 Transformer 编码器建模时间依赖性。最终的池化表示送入排序头,对候选视频进行打分。
-
Training – 整个流水线在公开的视频推荐数据集上进行微调(例如 MovieLens‑20M 视频切分、YouTube‑8M)。损失函数结合成对排序(BPR)和知识保持正则项,确保提取的 token 与原始 VLLM 输出保持一致。
结果与发现
| 数据集 | 指标 (HR@10) | 相较最佳先前的变化 |
|---|---|---|
| MovieLens‑20M(视频) | 0.742 | +4.3 % |
| YouTube‑8M(推荐) | 0.618 | +3.9 % |
| 检索延迟(每用户) | ≈ 45 ms | ↓ 70 % vs. decode‑only VLLM |
- 性能提升主要来源于层级融合:去除 MoE 会使 HR@10 下降约 2 pp,证实不同推荐场景依赖不同的抽象层次。
- 延迟降低:通过避免完整语言生成并使用固定大小的 token 集,推理速度约比仅解码的 VLLM 基线快 10 倍。
- 可解释性:可视化最高门控层显示,“场景‑情绪”查询倾向于使用更深的层(世界知识),而“对象‑存在”查询依赖于早期视觉层,符合人类直觉。
实际影响
- 可部署的推荐服务 – 公司可以将 LinkedOut 插入现有视频流水线,而无需重新设计数据收集(无需手工标签或元数据)。
- 低成本推理 – Token 提取步骤在单个 GPU 上运行,延迟低于 50 ms,使其在边缘服务器或云函数上实现实时个性化成为可能。
- 跨模态可扩展性 – 由于表示基于 token,可与音频嵌入、文本字幕或用户交互日志结合,而无需重新训练整个 VLLM。
- 可解释的推荐 – MoE 门控决策可以向开发者或终端用户展示,帮助调试偏见或合规性问题(例如,为什么某个类型被推荐)。
- 面向未来 – 随着更新、更大的 VLLM 出现,LinkedOut 只需替换升级后的主干网络,保持相同的下游架构。
限制与未来工作
- 对预训练 VLLM 质量的依赖 – 如果底层 VLLM 在小众领域(例如专业体育)缺乏覆盖,提取的 token 可能会遗漏关键线索。
- 提示设计的开销 – 虽然论文使用了一套固定的提示,但在新推荐场景中扩展可能需要手动进行提示工程,或引入自动提示搜索模块。
- 长历史记录的内存占用 – 聚合大量视频 token 会线性增长;作者建议采用层次池化作为后续改进方向。
未来方向
- 与 MoE 联合学习提示,
- 将框架扩展到多模态直播推荐,
- 探索蒸馏技术,以进一步压缩 VLLM 主干,实现边缘部署。
作者
- Haichao Zhang
- Yao Lu
- Lichen Wang
- Yunzhe Li
- Daiwei Chen
- Yunpeng Xu
- Yun Fu
论文信息
- arXiv ID: 2512.16891v1
- 分类: cs.CV, cs.AI, cs.IR, cs.LG, cs.MM
- 出版时间: 2025年12月18日
- PDF: 下载 PDF