computer-vision — Page 26

排序:

3个月前 · ai · - · -

[Paper] VisualActBench：VLM 能像人类一样看和行动吗？

视觉语言模型（VLMs）在感知和描述视觉环境方面取得了令人印象深刻的进展。然而，它们主动推理的能力……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] YOPO-Nav：使用一次性视频的3DGS图进行视觉导航

视觉导航已成为一种实用的替代方案，取代了依赖详细映射和路径规划的传统机器人导航流水线。然而，c...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 视觉航向预测用于自主空中飞行器

无人机（UAVs）与无人地面车辆（UGVs）的融合正日益成为智能自主系统发展的核心……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 基准测试文档解析器在PDF中的数学公式提取

正确地从 PDF 中解析数学公式对于训练大型语言模型以及从学术文献构建科学知识库至关重要……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 用于光谱变异建模的高光谱解混的扩散后验采样器

线性光谱混合模型（LMM）提供了一种简洁的形式来解耦组成材料（endmembers）及其相应的比例（abundance）...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] MedForget：层次感知多模态遗忘测试平台用于医学 AI

预训练的多模态大型语言模型（MLLMs）正日益被部署在医学 AI 系统中，用于临床推理、诊断支持和报告生成……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · software · - · -

介绍 GoCVKit：在 Go 中实现零样板计算机视觉

嗨，亲爱的 Gophers！如果你在 Go 中使用过计算机视觉，你就会知道 GoCV 在调用 OpenCV 功能方面非常棒。但现实是？样板代码…

#Go #GoCV #computer-vision #OpenCV #framework #real-time #zero-boilerplate #hot-reload #double-buffered #pipeline
3个月前 · ai · - · -

[Paper] ChronosOmni: 提升 Omni 大型语言模型的时间感知

时间感知是 omni 大型语言模型的一项基本能力，尤其在理解长视频和回答复杂问题时。先前的做法…

#research #paper #ai #nlp #computer-vision
3个月前 · ai · - · -

RoboCrop：教机器人如何采摘番茄

请提供您希望翻译的文章摘录或摘要文本，我才能为您进行翻译。

#robotics #agricultural automation #computer vision #machine learning #tomato harvesting #AI in farming
3个月前 · ai · - · -

[Paper] SynthPix：光速PIV图像生成器

我们描述了 SynthPix，这是一种用于粒子图像测速 (PIV) 的合成图像生成器，重点关注在加速器上的性能和并行性，实现了……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 神经形态眼动跟踪用于低延迟瞳孔检测

可穿戴系统的眼动追踪需要低延迟和毫瓦级功耗，但传统的基于帧的 pipelines 在运动模糊和高 compute 方面表现不佳……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 面向边缘的隐私增强 Vision Transformers 分布式框架

如今，视觉智能工具已经无处不在，提供了各种便利和可能性。然而，这些工具的计算需求很高，...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Astra: 通用交互式世界模型与自回归去噪

最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而，world model...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] Selfi：自我改进的重建引擎通过 3D 几何特征对齐

新视角合成（Novel View Synthesis，NVS）传统上依赖于具有显式3D归纳偏置的模型，并结合来自Structure-from-Motion的已知相机参数……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 高效重建动态场景：一次一个 D4RT

理解并重建来自 video 的动态场景的复杂几何和运动仍然是 computer vision 中的一项艰巨挑战。本文介绍…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 统一扩散Transformer用于高保真文本感知图像修复

文本感知图像恢复（TAIR）旨在从包含退化文本内容的低质量输入中恢复高质量图像。虽然扩散模型……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] LiDAS: 用于夜间感知的光照驱动动态主动感知

夜间环境对基于相机的感知构成了重大挑战，因为现有方法被动地依赖场景光照。我们引入 Lighting-...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 自演化 3D 场景生成（单张图像）

从单张图像生成高质量、纹理化的 3D 场景仍然是视觉和图形学中的一个根本性挑战。最近的 image-to-3D 生成器能够恢复 re...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] UniLayDiff：一种用于内容感知布局生成的统一扩散Transformer

内容感知布局生成是图形设计自动化中的关键任务，专注于创建视觉上吸引人的元素排列，使其无缝……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 无标签，无问题：使用多模态验证器训练视觉推理器

Visual reasoning 具有挑战性，需要精确的 object grounding 并理解复杂的 spatial relationships。现有方法分为两大类：...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 加速旋转不变卷积用于 UAV 图像分割

旋转不变性对于无人机航拍影像中的精确对象级分割至关重要，因为目标可能具有任意方向并呈现细微的…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] SATGround: 一种空间感知的遥感视觉定位方法

视觉语言模型（VLMs）正崭露头角，成为遥感领域强大的通用工具，能够在多样任务中整合信息并实现……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Siamese驱动的低分辨率图像潜在嵌入优化用于图像字幕生成

图像字幕（Image captioning）在许多领域至关重要，包括帮助视障人士、改进内容管理系统以及提升人机交互……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] MatteViT：高频感知文档阴影去除与阴影遮罩引导

文档阴影去除对于提升数字化文档的清晰度至关重要。保留高频细节（例如文本边缘和线条）是关键……

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts