[Paper] LinkedOut:从 Video LLM 中链接世界知识表示以实现下一代视频推荐

发布: (2025年12月19日 GMT+8 02:52)
7 min read
原文: arXiv

Source: arXiv - 2512.16891v1

概述

论文《LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next‑Generation Video Recommendation》解决了一个实际障碍:将视频大语言模型(VLLM)强大且富含知识的推理能力转化为快速、可扩展的视频推荐引擎。作者通过直接从原始视频帧中提取全新的“LinkedOut”表示,弥合了世界知识感知与真实场景推荐系统对低延迟、多视频处理需求之间的鸿沟。

关键贡献

  • LinkedOut 表示:一种 token 级、知识感知的嵌入,从原始帧中提取,保留细粒度视觉细节的同时注入 VLLM 世界知识。
  • 基于提示的 token 提取:使用轻量级、查询式提示(以及可选的辅助信号)在不进行完整语言生成的情况下抽取语义相关的 token。
  • 跨层知识融合 MoE:一种混合专家模块,能够为每个推荐查询动态选择 VLLM 深层特征层次结构中最合适的抽象层级。
  • 多视频历史支持:该架构原生接受用户观看视频序列,实现一次前向传播即可进行个性化推荐。
  • 在标准视频推荐基准上实现 state‑of‑the‑art 结果,超越之前的 VLLM 基础和经典基线,同时提供数量级更低的推理延迟。
  • 可解释性分析:展示融合层的 token 可以追溯到具体的视觉概念,为推荐提供透明的推理依据。

Methodology

  1. Frame‑level tokenization – 将原始视频帧输入预训练的 VLLM(例如 Flamingo‑style)。模型不生成完整句子,而是使用诸如 “object present?”(是否存在目标?)、“scene mood?”(场景情绪?)或 “action type?”(动作类型?)等简短查询进行提示。VLLM 返回一组 knowledge‑aware tokens(向量嵌入),这些嵌入同时捕捉视觉线索和模型的世界知识先验。

  2. Layer‑wise feature harvesting – VLLM 在多个 Transformer 层上产生层次化特征。浅层编码低级纹理;深层捕获高级语义和外部知识。作者将所有这些层暴露给下游处理。

  3. Cross‑layer Fusion MoE – 一个轻量级的 Mixture‑of‑Experts 网络为每个 token 学习哪个层的表示在当前推荐上下文(例如用户画像、观看历史)中最有用。MoE 门控在端到端训练中优化,使系统能够自动平衡细节与抽象。

  4. Multi‑video aggregation – 将用户最近观看的视频历史中的 token 进行拼接,并通过一个简单的 Transformer 编码器建模时间依赖性。最终的池化表示送入排序头,对候选视频进行打分。

  5. Training – 整个流水线在公开的视频推荐数据集上进行微调(例如 MovieLens‑20M 视频切分、YouTube‑8M)。损失函数结合成对排序(BPR)和知识保持正则项,确保提取的 token 与原始 VLLM 输出保持一致。

结果与发现

数据集指标 (HR@10)相较最佳先前的变化
MovieLens‑20M(视频)0.742+4.3 %
YouTube‑8M(推荐)0.618+3.9 %
检索延迟(每用户)≈ 45 ms↓ 70 % vs. decode‑only VLLM
  • 性能提升主要来源于层级融合:去除 MoE 会使 HR@10 下降约 2 pp,证实不同推荐场景依赖不同的抽象层次。
  • 延迟降低:通过避免完整语言生成并使用固定大小的 token 集,推理速度约比仅解码的 VLLM 基线快 10 倍。
  • 可解释性:可视化最高门控层显示,“场景‑情绪”查询倾向于使用更深的层(世界知识),而“对象‑存在”查询依赖于早期视觉层,符合人类直觉。

实际影响

  • 可部署的推荐服务 – 公司可以将 LinkedOut 插入现有视频流水线,而无需重新设计数据收集(无需手工标签或元数据)。
  • 低成本推理 – Token 提取步骤在单个 GPU 上运行,延迟低于 50 ms,使其在边缘服务器或云函数上实现实时个性化成为可能。
  • 跨模态可扩展性 – 由于表示基于 token,可与音频嵌入、文本字幕或用户交互日志结合,而无需重新训练整个 VLLM。
  • 可解释的推荐 – MoE 门控决策可以向开发者或终端用户展示,帮助调试偏见或合规性问题(例如,为什么某个类型被推荐)。
  • 面向未来 – 随着更新、更大的 VLLM 出现,LinkedOut 只需替换升级后的主干网络,保持相同的下游架构。

限制与未来工作

  • 对预训练 VLLM 质量的依赖 – 如果底层 VLLM 在小众领域(例如专业体育)缺乏覆盖,提取的 token 可能会遗漏关键线索。
  • 提示设计的开销 – 虽然论文使用了一套固定的提示,但在新推荐场景中扩展可能需要手动进行提示工程,或引入自动提示搜索模块。
  • 长历史记录的内存占用 – 聚合大量视频 token 会线性增长;作者建议采用层次池化作为后续改进方向。

未来方向

  1. 与 MoE 联合学习提示,
  2. 将框架扩展到多模态直播推荐,
  3. 探索蒸馏技术,以进一步压缩 VLLM 主干,实现边缘部署。

作者

  • Haichao Zhang
  • Yao Lu
  • Lichen Wang
  • Yunzhe Li
  • Daiwei Chen
  • Yunpeng Xu
  • Yun Fu

论文信息

  • arXiv ID: 2512.16891v1
  • 分类: cs.CV, cs.AI, cs.IR, cs.LG, cs.MM
  • 出版时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »