[Paper] DentalGPT: 激励牙科中的多模态复杂推理
对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要,然而当前的多模态大语言模型(MLLMs)仍面临困难……
对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要,然而当前的多模态大语言模型(MLLMs)仍面临困难……
在视频理解中,关键帧选择面临重大挑战。传统的 top‑K 选择方法会独立对帧进行打分,往往会失败于……
对边缘设备上实时 DNN 应用的需求日益增长,需要更快地推理日益复杂的模型。虽然许多设备包括 sp...
我们介绍了 StereoSpace,一个基于 diffusion 的 monocular-to-stereo 合成框架,它仅通过 viewpoint conditioning 来建模几何,而无需 …
生成式世界模型正在重塑具身 AI,使代理能够合成看起来逼真的 4D 驾驶环境,但往往在物理上失败……
在语言和视觉领域基础模型的成功激励了对全端到端机器人导航基础模型(NFMs)的研究。NFMs 直接映射单目……
视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)转移到未见过的场景中。然而……
我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……
归一化流(Normalizing Flows,NFs)已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……
在本工作中,我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的,但我们则提出……
自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models,但在学习3D方面仍基本未被探索。
Reinforcement learning (RL),此前已被证明在大型语言模型和多模态模型中有效,已成功扩展用于提升二维图像生成……
All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而,现有方法常常 f...
近期,基于大型扩散模型的以主题为驱动的视频生成取得了重要进展,使得能够在用户提供的主题条件下进行个性化内容合成……
推理超越语言;现实世界需要对空间、时间、affordances,以及远超文字所能表达的诸多方面进行推理。现有的 multimo...
先前将相机控制注入扩散模型的方法主要聚焦于 4D 一致性任务的特定子集:新视角合成、文本到视频…
尽管归一化层长期被视为深度学习架构中不可或缺的组成部分,最近引入的 Dynamic Tanh (DyT) 已经……
我们提出了 Any4D,一种可扩展的多视角 Transformer,用于度量尺度的密集前馈 4D 重建。Any4D 直接生成每像素的运动和几何……
Spoor的计算机视觉软件可以帮助风电场以及其他行业追踪鸟类种群和迁徙模式....
最近在基于 Gaussian Splatting 的逆渲染方面的进展将 Gaussian 基元扩展了着色参数和物理上有依据的光传输,enabli...
Video unified models 在理解和生成方面表现出强大的能力,但即使配备了 …,它们在基于推理的视觉编辑方面仍然存在困难。
Radiance field 表示最近在常用于 diffusion models 的 VAE 的 latent space 中被探索。这一方向提供了高效的…
为了实现human-robot coexistence,socially aware navigation 对移动机器人至关重要。然而,现有的研究主要关注路径效率……
我们提出 NordFKB,这是一套用于挪威地理空间 AI 的细粒度 benchmark dataset,来源于权威且高度精确的国家 Felles KartdataBase …