[Paper] VisualActBench:VLM 能像人类一样看和行动吗?
视觉语言模型(VLMs)在感知和描述视觉环境方面取得了令人印象深刻的进展。然而,它们主动推理的能力……
视觉语言模型(VLMs)在感知和描述视觉环境方面取得了令人印象深刻的进展。然而,它们主动推理的能力……
视觉导航已成为一种实用的替代方案,取代了依赖详细映射和路径规划的传统机器人导航流水线。然而,c...
无人机(UAVs)与无人地面车辆(UGVs)的融合正日益成为智能自主系统发展的核心……
正确地从 PDF 中解析数学公式对于训练大型语言模型以及从学术文献构建科学知识库至关重要……
线性光谱混合模型(LMM)提供了一种简洁的形式来解耦组成材料(endmembers)及其相应的比例(abundance)...
预训练的多模态大型语言模型(MLLMs)正日益被部署在医学 AI 系统中,用于临床推理、诊断支持和报告生成……
嗨,亲爱的 Gophers!如果你在 Go 中使用过计算机视觉,你就会知道 GoCV 在调用 OpenCV 功能方面非常棒。但现实是?样板代码…
时间感知是 omni 大型语言模型的一项基本能力,尤其在理解长视频和回答复杂问题时。先前的做法…
请提供您希望翻译的文章摘录或摘要文本,我才能为您进行翻译。
我们描述了 SynthPix,这是一种用于粒子图像测速 (PIV) 的合成图像生成器,重点关注在加速器上的性能和并行性,实现了……
可穿戴系统的眼动追踪需要低延迟和毫瓦级功耗,但传统的基于帧的 pipelines 在运动模糊和高 compute 方面表现不佳……
如今,视觉智能工具已经无处不在,提供了各种便利和可能性。然而,这些工具的计算需求很高,...
最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而,world model...
新视角合成(Novel View Synthesis,NVS)传统上依赖于具有显式3D归纳偏置的模型,并结合来自Structure-from-Motion的已知相机参数……
理解并重建来自 video 的动态场景的复杂几何和运动仍然是 computer vision 中的一项艰巨挑战。本文介绍…
文本感知图像恢复(TAIR)旨在从包含退化文本内容的低质量输入中恢复高质量图像。虽然扩散模型……
夜间环境对基于相机的感知构成了重大挑战,因为现有方法被动地依赖场景光照。我们引入 Lighting-...
从单张图像生成高质量、纹理化的 3D 场景仍然是视觉和图形学中的一个根本性挑战。最近的 image-to-3D 生成器能够恢复 re...
内容感知布局生成是图形设计自动化中的关键任务,专注于创建视觉上吸引人的元素排列,使其无缝……
Visual reasoning 具有挑战性,需要精确的 object grounding 并理解复杂的 spatial relationships。现有方法分为两大类:...
旋转不变性对于无人机航拍影像中的精确对象级分割至关重要,因为目标可能具有任意方向并呈现细微的…
视觉语言模型(VLMs)正崭露头角,成为遥感领域强大的通用工具,能够在多样任务中整合信息并实现……
图像字幕(Image captioning)在许多领域至关重要,包括帮助视障人士、改进内容管理系统以及提升人机交互……
文档阴影去除对于提升数字化文档的清晰度至关重要。保留高频细节(例如文本边缘和线条)是关键……