[Paper] Any4D:统一前馈度量4D重建
我们提出了 Any4D,一种可扩展的多视角 Transformer,用于度量尺度的密集前馈 4D 重建。Any4D 直接生成每像素的运动和几何……
我们提出了 Any4D,一种可扩展的多视角 Transformer,用于度量尺度的密集前馈 4D 重建。Any4D 直接生成每像素的运动和几何……
Spoor的计算机视觉软件可以帮助风电场以及其他行业追踪鸟类种群和迁徙模式....
最近在基于 Gaussian Splatting 的逆渲染方面的进展将 Gaussian 基元扩展了着色参数和物理上有依据的光传输,enabli...
Video unified models 在理解和生成方面表现出强大的能力,但即使配备了 …,它们在基于推理的视觉编辑方面仍然存在困难。
Radiance field 表示最近在常用于 diffusion models 的 VAE 的 latent space 中被探索。这一方向提供了高效的…
为了实现human-robot coexistence,socially aware navigation 对移动机器人至关重要。然而,现有的研究主要关注路径效率……
我们提出 NordFKB,这是一套用于挪威地理空间 AI 的细粒度 benchmark dataset,来源于权威且高度精确的国家 Felles KartdataBase …
视觉语言模型(VLMs)在感知和描述视觉环境方面取得了令人印象深刻的进展。然而,它们主动推理的能力……
视觉导航已成为一种实用的替代方案,取代了依赖详细映射和路径规划的传统机器人导航流水线。然而,c...
无人机(UAVs)与无人地面车辆(UGVs)的融合正日益成为智能自主系统发展的核心……
正确地从 PDF 中解析数学公式对于训练大型语言模型以及从学术文献构建科学知识库至关重要……
线性光谱混合模型(LMM)提供了一种简洁的形式来解耦组成材料(endmembers)及其相应的比例(abundance)...
预训练的多模态大型语言模型(MLLMs)正日益被部署在医学 AI 系统中,用于临床推理、诊断支持和报告生成……
嗨,亲爱的 Gophers!如果你在 Go 中使用过计算机视觉,你就会知道 GoCV 在调用 OpenCV 功能方面非常棒。但现实是?样板代码…
时间感知是 omni 大型语言模型的一项基本能力,尤其在理解长视频和回答复杂问题时。先前的做法…
请提供您希望翻译的文章摘录或摘要文本,我才能为您进行翻译。
我们描述了 SynthPix,这是一种用于粒子图像测速 (PIV) 的合成图像生成器,重点关注在加速器上的性能和并行性,实现了……
可穿戴系统的眼动追踪需要低延迟和毫瓦级功耗,但传统的基于帧的 pipelines 在运动模糊和高 compute 方面表现不佳……
如今,视觉智能工具已经无处不在,提供了各种便利和可能性。然而,这些工具的计算需求很高,...
最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而,world model...
新视角合成(Novel View Synthesis,NVS)传统上依赖于具有显式3D归纳偏置的模型,并结合来自Structure-from-Motion的已知相机参数……
理解并重建来自 video 的动态场景的复杂几何和运动仍然是 computer vision 中的一项艰巨挑战。本文介绍…
文本感知图像恢复(TAIR)旨在从包含退化文本内容的低质量输入中恢复高质量图像。虽然扩散模型……
夜间环境对基于相机的感知构成了重大挑战,因为现有方法被动地依赖场景光照。我们引入 Lighting-...
从单张图像生成高质量、纹理化的 3D 场景仍然是视觉和图形学中的一个根本性挑战。最近的 image-to-3D 生成器能够恢复 re...
内容感知布局生成是图形设计自动化中的关键任务,专注于创建视觉上吸引人的元素排列,使其无缝……
Visual reasoning 具有挑战性,需要精确的 object grounding 并理解复杂的 spatial relationships。现有方法分为两大类:...
旋转不变性对于无人机航拍影像中的精确对象级分割至关重要,因为目标可能具有任意方向并呈现细微的…
视觉语言模型(VLMs)正崭露头角,成为遥感领域强大的通用工具,能够在多样任务中整合信息并实现……
图像字幕(Image captioning)在许多领域至关重要,包括帮助视障人士、改进内容管理系统以及提升人机交互……
文档阴影去除对于提升数字化文档的清晰度至关重要。保留高频细节(例如文本边缘和线条)是关键……
近年来,高性能计算机视觉模型在医学影像领域取得了显著成功,甚至有一些皮肤病变分类系统……
自动手语识别(ASLR)已成为弥合聋人与听人社区之间鸿沟的关键领域。然而,手势的……
生物系统表现出显著的 morphogenetic plasticity,单一基因组可以编码由局部化学…触发的各种专门的细胞结构。
体素艺术是一种在游戏和数字媒体中广泛使用的独特风格化,但从 3D meshes 自动生成仍然具有挑战性,因为存在冲突的…
人类不仅仅看到属性相似——我们也看到关系相似。苹果像桃子,因为两者都是红色的水果,但地球也是……
近期的视频生成模型展示了令人印象深刻的合成能力,但仍受单模态条件的限制,限制了它们的整体工作……
视觉生成模型(例如 diffusion models)通常在压缩的潜在空间中运行,以平衡训练效率和样本质量。与此同时,...
基于指令的图像编辑数据集的质量和多样性正在不断提升,然而用于基于指令的……的大规模高质量数据集仍然不足。
近期的视频生成器实现了惊人的写实效果,但在三维空间上仍然根本不一致。我们提出了 WorldReel,这是一种原生的四维视频生成器……
在3D表示中嵌入语言字段,通过将几何与描述性意义关联,实现对空间环境更丰富的语义理解。Th...
我们提出 Multi-view Pyramid Transformer (MVP),一种可扩展的多视角 transformer 架构,能够直接从十到数百...重建大型 3D 场景。
在真实世界的视频中,叙事通常通过多个镜头展开——这些镜头虽然不连续,却在语义上相连,共同传达一个连贯的叙事……
大多数视觉生成模型在应用扩散或自回归建模之前,会将图像压缩到潜在空间中。然而,现有的方法,例如 VAEs ……
多模态大语言模型(MLLMs)在视觉‑语言理解任务中展示了卓越的能力。虽然这些模型经常产生语言……
DreamerV3 是一种最先进的在线模型驱动强化学习(MBRL)算法,以其显著的样本效率而闻名。同时,Kolmogorov‑Arno…
Lottery Ticket Hypothesis 断言,在密集、随机初始化的神经网络中存在高度稀疏、可训练的子网络(“winning tickets”)。
本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……