[Paper] RELIC:交互式视频世界模型与长时程记忆
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,以及应用 gener...
为什么当模型在单域数据集上训练时,最先进的 OOD 检测方法会表现出灾难性失败?我们提供了第一个理论…
我们提出 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...
本研究探讨在特定情形下,大型语言模型(LLMs)相较于传统神经网络在天文数据处理方面是否具有优势。
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
Quantum key distribution (QKD) 的安全性根本依赖于区分真实的 quantum correlations 与 classical eavesdropper simulations 的能力,...
使用差分隐私(DP)进行训练为数据集中的成员提供了一种保证,即他们不能被已发布模型的用户识别。然而,尽管如此,...
草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……
Tokenizer 适配在将预训练语言模型转移到新领域或新语言中发挥重要作用。在本工作中,我们解决了两个互补的……
- 前十名最智能的开源模型全部采用 mixture-of-experts 架构。 - Kimi K2 Thinking、DeepSeek‑R1、Mistral Large 3 等模型的运行速度提升了 10 倍……
Macro 是由 MIT Energy Initiative 开发的建模工具,使能源系统规划者能够探索开发基础设施以支持脱碳的选项。