[Paper] 独特的生活,共享的世界:从单生命视频中学习
我们引入了“single-life”学习范式,在该范式中,我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...
我们引入了“single-life”学习范式,在该范式中,我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...
Graphic design 是现代视觉传播的基石,作为推广文化和商业活动的重要媒介。最近的进展已经…
我们引入 radiance meshes,这是一种使用通过 Delaunay tetrahedralization 生成的恒定密度 tetrahedral cells 来表示 radiance fields 的技术。
Reasoning models leveraging long chains of thought 采用多种认知技能,例如对其答案的 verification、backtracking、通过 alternat… 重试。
Vision Language Models (VLMs) 展示了强大的定性视觉理解能力,但在实现具身所需的度量精确空间推理方面仍然困难……
为了处理不明确或模糊的查询,AI 助手需要一套管理其不确定性的策略,以确定 (a) 何时猜测用户意图并回答…
在当今不断发展的世界中,拥有像Ola、Uber和Rapido这样的优质叫车服务非常重要,因为它们对我们的日常出行至关重要。...
手语生成(Sign Language Production,SLP)是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面,……
在民主制度中,重大政策决定通常需要某种形式的多数或共识,因此精英必须争取大众支持以执政。历史上,精英……
Watermarking 的目标是将隐藏信号嵌入生成的文本中,在获取到秘密密钥时能够可靠地检测到。Open-weight 语言模型带来…
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,以及应用 gener...
为什么当模型在单域数据集上训练时,最先进的 OOD 检测方法会表现出灾难性失败?我们提供了第一个理论…
我们提出 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...
本研究探讨在特定情形下,大型语言模型(LLMs)相较于传统神经网络在天文数据处理方面是否具有优势。
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
Quantum key distribution (QKD) 的安全性根本依赖于区分真实的 quantum correlations 与 classical eavesdropper simulations 的能力,...
使用差分隐私(DP)进行训练为数据集中的成员提供了一种保证,即他们不能被已发布模型的用户识别。然而,尽管如此,...
草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……
Tokenizer 适配在将预训练语言模型转移到新领域或新语言中发挥重要作用。在本工作中,我们解决了两个互补的……
Mixture-of-Experts(MoE),虽然作为大型语言模型(LLM)架构提供了显著优势,但在部署到低…
基于SMT求解器的自动化验证工具在验证复杂软件系统方面取得了显著进展。然而,这些工具面临一个根本性的……
人工智能(AI)和深度学习(DL)的快速发展催生了多个以优化为驱动的子领域,尤其是神经…
Spiking neural networks (SNNs) 已经成为计算神经科学和人工智能领域的一个有前景的方向,提供了诸如…的优势。