[Paper] LinkedOut：从 Video LLM 中链接世界知识表示以实现下一代视频推荐

发布: 1个月前 (2025年12月19日 GMT+8 02:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16891v1

概述

论文《LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next‑Generation Video Recommendation》解决了一个实际障碍：将视频大语言模型（VLLM）强大且富含知识的推理能力转化为快速、可扩展的视频推荐引擎。作者通过直接从原始视频帧中提取全新的“LinkedOut”表示，弥合了世界知识感知与真实场景推荐系统对低延迟、多视频处理需求之间的鸿沟。

关键贡献

LinkedOut 表示：一种 token 级、知识感知的嵌入，从原始帧中提取，保留细粒度视觉细节的同时注入 VLLM 世界知识。
基于提示的 token 提取：使用轻量级、查询式提示（以及可选的辅助信号）在不进行完整语言生成的情况下抽取语义相关的 token。
跨层知识融合 MoE：一种混合专家模块，能够为每个推荐查询动态选择 VLLM 深层特征层次结构中最合适的抽象层级。
多视频历史支持：该架构原生接受用户观看视频序列，实现一次前向传播即可进行个性化推荐。
在标准视频推荐基准上实现 state‑of‑the‑art 结果，超越之前的 VLLM 基础和经典基线，同时提供数量级更低的推理延迟。
可解释性分析：展示融合层的 token 可以追溯到具体的视觉概念，为推荐提供透明的推理依据。

Methodology

Frame‑level tokenization – 将原始视频帧输入预训练的 VLLM（例如 Flamingo‑style）。模型不生成完整句子，而是使用诸如 “object present?”（是否存在目标？）、“scene mood?”（场景情绪？）或 “action type?”（动作类型？）等简短查询进行提示。VLLM 返回一组 knowledge‑aware tokens（向量嵌入），这些嵌入同时捕捉视觉线索和模型的世界知识先验。
Layer‑wise feature harvesting – VLLM 在多个 Transformer 层上产生层次化特征。浅层编码低级纹理；深层捕获高级语义和外部知识。作者将所有这些层暴露给下游处理。
Cross‑layer Fusion MoE – 一个轻量级的 Mixture‑of‑Experts 网络为每个 token 学习哪个层的表示在当前推荐上下文（例如用户画像、观看历史）中最有用。MoE 门控在端到端训练中优化，使系统能够自动平衡细节与抽象。
Multi‑video aggregation – 将用户最近观看的视频历史中的 token 进行拼接，并通过一个简单的 Transformer 编码器建模时间依赖性。最终的池化表示送入排序头，对候选视频进行打分。
Training – 整个流水线在公开的视频推荐数据集上进行微调（例如 MovieLens‑20M 视频切分、YouTube‑8M）。损失函数结合成对排序（BPR）和知识保持正则项，确保提取的 token 与原始 VLLM 输出保持一致。

结果与发现

数据集	指标 (HR@10)	相较最佳先前的变化
MovieLens‑20M（视频）	0.742	+4.3 %
YouTube‑8M（推荐）	0.618	+3.9 %
检索延迟（每用户）	≈ 45 ms	↓ 70 % vs. decode‑only VLLM

性能提升主要来源于层级融合：去除 MoE 会使 HR@10 下降约 2 pp，证实不同推荐场景依赖不同的抽象层次。
延迟降低：通过避免完整语言生成并使用固定大小的 token 集，推理速度约比仅解码的 VLLM 基线快 10 倍。
可解释性：可视化最高门控层显示，“场景‑情绪”查询倾向于使用更深的层（世界知识），而“对象‑存在”查询依赖于早期视觉层，符合人类直觉。

实际影响

可部署的推荐服务 – 公司可以将 LinkedOut 插入现有视频流水线，而无需重新设计数据收集（无需手工标签或元数据）。
低成本推理 – Token 提取步骤在单个 GPU 上运行，延迟低于 50 ms，使其在边缘服务器或云函数上实现实时个性化成为可能。
跨模态可扩展性 – 由于表示基于 token，可与音频嵌入、文本字幕或用户交互日志结合，而无需重新训练整个 VLLM。
可解释的推荐 – MoE 门控决策可以向开发者或终端用户展示，帮助调试偏见或合规性问题（例如，为什么某个类型被推荐）。
面向未来 – 随着更新、更大的 VLLM 出现，LinkedOut 只需替换升级后的主干网络，保持相同的下游架构。

限制与未来工作

对预训练 VLLM 质量的依赖 – 如果底层 VLLM 在小众领域（例如专业体育）缺乏覆盖，提取的 token 可能会遗漏关键线索。
提示设计的开销 – 虽然论文使用了一套固定的提示，但在新推荐场景中扩展可能需要手动进行提示工程，或引入自动提示搜索模块。
长历史记录的内存占用 – 聚合大量视频 token 会线性增长；作者建议采用层次池化作为后续改进方向。

未来方向

与 MoE 联合学习提示，
将框架扩展到多模态直播推荐，
探索蒸馏技术，以进一步压缩 VLLM 主干，实现边缘部署。

作者

Haichao Zhang
Yao Lu
Lichen Wang
Yunzhe Li
Daiwei Chen
Yunpeng Xu
Yun Fu

论文信息

arXiv ID: 2512.16891v1
分类: cs.CV, cs.AI, cs.IR, cs.LG, cs.MM
出版时间: 2025年12月18日
PDF: 下载 PDF

[Paper] LinkedOut：从 Video LLM 中链接世界知识表示以实现下一代视频推荐

概述

关键贡献

Methodology

结果与发现

实际影响

限制与未来工作

未来方向

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] RadarGen：从摄像头生成汽车雷达点云

[Paper] 视觉提示基准出乎意料地脆弱