[Paper] StereoSpace:在规范空间中通过端到端扩散实现深度无关的立体几何合成
我们介绍了 StereoSpace,一个基于 diffusion 的 monocular-to-stereo 合成框架,它仅通过 viewpoint conditioning 来建模几何,而无需 …
我们介绍了 StereoSpace,一个基于 diffusion 的 monocular-to-stereo 合成框架,它仅通过 viewpoint conditioning 来建模几何,而无需 …
生成式世界模型正在重塑具身 AI,使代理能够合成看起来逼真的 4D 驾驶环境,但往往在物理上失败……
在语言和视觉领域基础模型的成功激励了对全端到端机器人导航基础模型(NFMs)的研究。NFMs 直接映射单目……
视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)转移到未见过的场景中。然而……
我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……
归一化流(Normalizing Flows,NFs)已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……
在本工作中,我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的,但我们则提出……
现代机器学习的成功依赖于获取高质量的训练数据。在许多实际场景中,例如从公共仓库获取数据……
自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models,但在学习3D方面仍基本未被探索。
Reinforcement learning (RL),此前已被证明在大型语言模型和多模态模型中有效,已成功扩展用于提升二维图像生成……
All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而,现有方法常常 f...
人类水平的接触丰富操作依赖于两种关键模态的不同角色:视觉提供空间丰富但时间上较慢的全局上下文,...