· ai
[Paper] PSA:金字塔稀疏注意力用于高效视频理解与生成
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……
我们提出 MagicQuill V2,这是一种新颖的系统,引入了分层组合范式用于生成式图像编辑,弥合了语义……
多视角扩散模型最近作为一种强大的新视角合成范式出现,然而支撑其视图一致性的底层机制仍未被完全阐明……
强化学习(RL)最近在多模态大型语言模型(MLLMs)中引发视觉推理方面取得了显著成功。然而,现有的...
我们推出 PPTArena,这是一项用于 PowerPoint 编辑的基准,衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…
当前的视频生成技术在单镜头剪辑(single-shot clips)方面表现出色,但在生成需要灵活镜头安排、连贯性的叙事多镜头视频(multi-shot videos)方面仍然困难,……
我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……
尽管视频到音频生成取得了进展,该领域主要关注单声道输出,缺乏空间沉浸感。现有的binaural方法仍然……
我们提出 MAViD,一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……
Data-driven motion priors 能够引导 agents 产生自然行为,在创建逼真的虚拟角色方面发挥关键作用。Adversaria...
磁共振成像(MRI)提供了出色的软组织对比度且无需电离辐射,但其长时间的采集限制了临床实用性。最近……