【论文】循环视频掩码自编码器
我们提出了循环视频掩码自编码器(Recurrent Video Masked‑Autoencoders,RVM):一种新颖的视频表示学习方法,使用 transformer‑based 循环神经网络来……
我们提出了循环视频掩码自编码器(Recurrent Video Masked‑Autoencoders,RVM):一种新颖的视频表示学习方法,使用 transformer‑based 循环神经网络来……
泛化仍然是 interactive 3D scene generation 的核心挑战。现有的 learning-based 方法将 spatial understanding 建立在有限的场景上。
近期的前馈重建模型,如 VGGT 和 π^3,取得了令人印象深刻的重建质量,但由于二次内存开销,它们无法处理流式视频。
近期在 image-to-3D 领域的进展为设计、AR/VR 和机器人技术打开了巨大的可能性。然而,要在实际应用中使用 AI 生成的 3D 资产,……
在本文中,我们提出了 JoVA,一个用于联合 video‑audio 生成的统一框架。尽管最近取得了令人鼓舞的进展,现有方法仍面临两个关键的限制……
我们引入了 Interactive Intelligence,这是一种新颖的数字人范式,能够实现与人格对齐的表达、自适应交互以及自我进化……
Textual Inversion(TI)是一种高效的 text-to-image 个性化方法,但在复杂提示下常常失败。我们将这些失败归因于 embedding norm。
灵巧的操作具有挑战性,因为它需要理解细微的手部运动如何通过与物体的接触影响环境。我们介绍…
通过鲁棒性评估对人工智能(AI)模型进行验证和确认,对于保证其在集成中的可靠性能至关重要……
我们引入 Do-Undo 任务和基准,以填补视觉语言模型中的关键空白:理解和生成物理上合理的场景转换……
近期在组织病理学中的深度学习框架,特别是与病理基础模型(PFMs)相结合的多实例学习(MIL),已经显示出……
真正的玩家会知道这张图中的雷尼尔山看起来太大了,但这张 AI 图像中对 Washington State 渡轮的再现令人毛骨悚然。这是 The Ste...
介绍:AI background remover 在运行良好时几乎像魔法一样令人惊叹——而在失效时则令人沮丧。差异通常归结为两个细微的……
3D Gaussian Splatting(3DGS)的最新成功通过实现快速优化和实时渲染高质量辐射,重新塑造了新视角合成。
大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...
我们提出了 Particulate,这是一种前馈方法,给定单个静态的日常物体 3D 网格,直接推断出其底层结构的所有属性。
大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈,因为真实世界的数据获取成本高且 s...
现实是一场在刚性约束与可变结构之间的舞蹈。对于视频模型而言,这意味着生成既保持保真度又保持结构的运动……
在常规临床照片中准确量化白癜风的范围对于纵向监测治疗反应至关重要。我们提出一种可信的,f...
视频抠图仍受限于现有数据集的规模和真实感。虽然利用分割数据可以提升语义稳定性,但缺乏 effe...
模型指纹检测技术已经成为一种有前景的方法,用于将 AI 生成的图像归属到其源模型,但它们的鲁棒性仍然...
生成逼真的合成显微图像对于在标签稀缺的环境中训练深度学习模型至关重要,例如在细胞计数等任务中。
基于视觉基础模型(Visual Foundation Model,VFM)表征的视觉生成提供了一条极具前景的统一路径,用于整合视觉理解、感知……