[Paper] RELIC:交互式视频世界模型与长时程记忆
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,并应用生成…
为什么在模型仅在 single-domain 数据集上训练时,state-of-the-art OOD detection 方法会出现 catastrophic failure?我们提供了首个 theoretical e...
我们提出了 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。...
本研究探讨在……情形下,大型语言模型(LLMs)相较于传统神经网络在天文数据处理方面是否具有优势。
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
Quantum key distribution (QKD) 的安全性根本依赖于区分真实的 quantum correlations 与 classical eavesdropper simulations 的能力,...
使用差分隐私(DP)进行训练为数据集中的成员提供了一种保证,即他们不能被已发布模型的用户识别。然而,...
草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……
Tokenizer 适配在将预训练语言模型转移到新领域或新语言中发挥重要作用。在本工作中,我们解决了两个互补的……
虽然最近在大型语言模型方面的进展提升了偏见检测和分类的能力,但像宗教这样的敏感话题仍然带来挑战……
Mixture-of-Experts (MoE),虽然作为大型语言模型(LLM)架构提供了显著优势,但在部署到低‑…