· ai
[Paper] Astra: 通用交互式世界模型与自回归去噪
最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而,world model...
最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而,world model...
新视角合成(Novel View Synthesis,NVS)传统上依赖于具有显式3D归纳偏置的模型,并结合来自Structure-from-Motion的已知相机参数……
理解并重建来自 video 的动态场景的复杂几何和运动仍然是 computer vision 中的一项艰巨挑战。本文介绍…
文本感知图像恢复(TAIR)旨在从包含退化文本内容的低质量输入中恢复高质量图像。虽然扩散模型……
夜间环境对基于相机的感知构成了重大挑战,因为现有方法被动地依赖场景光照。我们引入 Lighting-...
从单张图像生成高质量、纹理化的 3D 场景仍然是视觉和图形学中的一个根本性挑战。最近的 image-to-3D 生成器能够恢复 re...
内容感知布局生成是图形设计自动化中的关键任务,专注于创建视觉上吸引人的元素排列,使其无缝……
Visual reasoning 具有挑战性,需要精确的 object grounding 并理解复杂的 spatial relationships。现有方法分为两大类:...
旋转不变性对于无人机航拍影像中的精确对象级分割至关重要,因为目标可能具有任意方向并呈现细微的…
视觉语言模型(VLMs)正崭露头角,成为遥感领域强大的通用工具,能够在多样任务中整合信息并实现……
图像字幕(Image captioning)在许多领域至关重要,包括帮助视障人士、改进内容管理系统以及提升人机交互……
文档阴影去除对于提升数字化文档的清晰度至关重要。保留高频细节(例如文本边缘和线条)是关键……