computer-vision — Page 20

排序:

4个月前 · ai · - · -

[Paper] Any4D：统一前馈度量4D重建

我们提出了 Any4D，一种可扩展的多视角 Transformer，用于度量尺度的密集前馈 4D 重建。Any4D 直接生成每像素的运动和几何……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

对 Spoor 的鸟类监测 AI 软件的兴趣正飙升

Spoor的计算机视觉软件可以帮助风电场以及其他行业追踪鸟类种群和迁徙模式....

#computer vision #bird monitoring #wildlife conservation #environmental AI #wind farms #Spoor #migration tracking
4个月前 · ai · - · -

[Paper] GAINS：基于高斯的稀疏多视角捕获逆向渲染

最近在基于 Gaussian Splatting 的逆渲染方面的进展将 Gaussian 基元扩展了着色参数和物理上有依据的光传输，enabli...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] ReViSE：在统一模型中实现基于推理的视频编辑与自反学习

Video unified models 在理解和生成方面表现出强大的能力，但即使配备了 …，它们在基于推理的视觉编辑方面仍然存在困难。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Splatent：用于新视角合成的扩散潜变量点绘

Radiance field 表示最近在常用于 diffusion models 的 VAE 的 latent space 中被探索。这一方向提供了高效的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] LISN：语言指令的社交导航与基于VLM的控制器调制

为了实现human-robot coexistence，socially aware navigation 对移动机器人至关重要。然而，现有的研究主要关注路径效率……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] NordFKB：用于挪威地理空间 AI 的细粒度基准数据集

我们提出 NordFKB，这是一套用于挪威地理空间 AI 的细粒度 benchmark dataset，来源于权威且高度精确的国家 Felles KartdataBase …

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] VisualActBench：VLM 能像人类一样看和行动吗？

视觉语言模型（VLMs）在感知和描述视觉环境方面取得了令人印象深刻的进展。然而，它们主动推理的能力……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] YOPO-Nav：使用一次性视频的3DGS图进行视觉导航

视觉导航已成为一种实用的替代方案，取代了依赖详细映射和路径规划的传统机器人导航流水线。然而，c...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 视觉航向预测用于自主空中飞行器

无人机（UAVs）与无人地面车辆（UGVs）的融合正日益成为智能自主系统发展的核心……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 基准测试文档解析器在PDF中的数学公式提取

正确地从 PDF 中解析数学公式对于训练大型语言模型以及从学术文献构建科学知识库至关重要……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 用于光谱变异建模的高光谱解混的扩散后验采样器

线性光谱混合模型（LMM）提供了一种简洁的形式来解耦组成材料（endmembers）及其相应的比例（abundance）...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] MedForget：层次感知多模态遗忘测试平台用于医学 AI

预训练的多模态大型语言模型（MLLMs）正日益被部署在医学 AI 系统中，用于临床推理、诊断支持和报告生成……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · software · - · -

介绍 GoCVKit：在 Go 中实现零样板计算机视觉

嗨，亲爱的 Gophers！如果你在 Go 中使用过计算机视觉，你就会知道 GoCV 在调用 OpenCV 功能方面非常棒。但现实是？样板代码…

#Go #GoCV #computer-vision #OpenCV #framework #real-time #zero-boilerplate #hot-reload #double-buffered #pipeline
4个月前 · ai · - · -

[Paper] ChronosOmni: 提升 Omni 大型语言模型的时间感知

时间感知是 omni 大型语言模型的一项基本能力，尤其在理解长视频和回答复杂问题时。先前的做法…

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

RoboCrop：教机器人如何采摘番茄

请提供您希望翻译的文章摘录或摘要文本，我才能为您进行翻译。

#robotics #agricultural automation #computer vision #machine learning #tomato harvesting #AI in farming
4个月前 · ai · - · -

[Paper] SynthPix：光速PIV图像生成器

我们描述了 SynthPix，这是一种用于粒子图像测速 (PIV) 的合成图像生成器，重点关注在加速器上的性能和并行性，实现了……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 神经形态眼动跟踪用于低延迟瞳孔检测

可穿戴系统的眼动追踪需要低延迟和毫瓦级功耗，但传统的基于帧的 pipelines 在运动模糊和高 compute 方面表现不佳……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 面向边缘的隐私增强 Vision Transformers 分布式框架

如今，视觉智能工具已经无处不在，提供了各种便利和可能性。然而，这些工具的计算需求很高，...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Astra: 通用交互式世界模型与自回归去噪

最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而，world model...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Selfi：自我改进的重建引擎通过 3D 几何特征对齐

新视角合成（Novel View Synthesis，NVS）传统上依赖于具有显式3D归纳偏置的模型，并结合来自Structure-from-Motion的已知相机参数……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 高效重建动态场景：一次一个 D4RT

理解并重建来自 video 的动态场景的复杂几何和运动仍然是 computer vision 中的一项艰巨挑战。本文介绍…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 统一扩散Transformer用于高保真文本感知图像修复

文本感知图像恢复（TAIR）旨在从包含退化文本内容的低质量输入中恢复高质量图像。虽然扩散模型……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] LiDAS: 用于夜间感知的光照驱动动态主动感知

夜间环境对基于相机的感知构成了重大挑战，因为现有方法被动地依赖场景光照。我们引入 Lighting-...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 自演化 3D 场景生成（单张图像）

从单张图像生成高质量、纹理化的 3D 场景仍然是视觉和图形学中的一个根本性挑战。最近的 image-to-3D 生成器能够恢复 re...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] UniLayDiff：一种用于内容感知布局生成的统一扩散Transformer

内容感知布局生成是图形设计自动化中的关键任务，专注于创建视觉上吸引人的元素排列，使其无缝……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 无标签，无问题：使用多模态验证器训练视觉推理器

Visual reasoning 具有挑战性，需要精确的 object grounding 并理解复杂的 spatial relationships。现有方法分为两大类：...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 加速旋转不变卷积用于 UAV 图像分割

旋转不变性对于无人机航拍影像中的精确对象级分割至关重要，因为目标可能具有任意方向并呈现细微的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] SATGround: 一种空间感知的遥感视觉定位方法

视觉语言模型（VLMs）正崭露头角，成为遥感领域强大的通用工具，能够在多样任务中整合信息并实现……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Siamese驱动的低分辨率图像潜在嵌入优化用于图像字幕生成

图像字幕（Image captioning）在许多领域至关重要，包括帮助视障人士、改进内容管理系统以及提升人机交互……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] MatteViT：高频感知文档阴影去除与阴影遮罩引导

文档阴影去除对于提升数字化文档的清晰度至关重要。保留高频细节（例如文本边缘和线条）是关键……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 基于 Skewness-Guided 剪枝的 Multimodal Swin Transformers 在联邦皮肤病变分类中的边缘设备应用

近年来，高性能计算机视觉模型在医学影像领域取得了显著成功，甚至有一些皮肤病变分类系统……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 基于姿态的手语定位 via an End-to-End Encoder Architecture

自动手语识别（ASLR）已成为弥合聋人与听人社区之间鸿沟的关键领域。然而，手势的……

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 条件形态发生：通过 Neural Cellular Automata 的自发生成结构数字

生物系统表现出显著的 morphogenetic plasticity，单一基因组可以编码由局部化学…触发的各种专门的细胞结构。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Voxify3D：像素艺术遇上体积渲染

体素艺术是一种在游戏和数字媒体中广泛使用的独特风格化，但从 3D meshes 自动生成仍然具有挑战性，因为存在冲突的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 关系视觉相似性

人类不仅仅看到属性相似——我们也看到关系相似。苹果像桃子，因为两者都是红色的水果，但地球也是……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] UnityVideo：统一多模态多任务学习以提升世界感知视频生成

近期的视频生成模型展示了令人印象深刻的合成能力，但仍受单模态条件的限制，限制了它们的整体工作……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 单层足够：适配预训练视觉编码器用于图像生成

视觉生成模型（例如 diffusion models）通常在压缩的潜在空间中运行，以平衡训练效率和样本质量。与此同时，...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] OpenVE-3M：大规模高质量的指令引导视频编辑数据集

基于指令的图像编辑数据集的质量和多样性正在不断提升，然而用于基于指令的……的大规模高质量数据集仍然不足。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] WorldReel：4D 视频生成，实现一致的几何与运动建模

近期的视频生成器实现了惊人的写实效果，但在三维空间上仍然根本不一致。我们提出了 WorldReel，这是一种原生的四维视频生成器……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Lang3D-XL: 语言嵌入的 3D 高斯用于大规模场景

在3D表示中嵌入语言字段，通过将几何与描述性意义关联，实现对空间环境更丰富的语义理解。Th...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Multi-view Pyramid Transformer：看得更粗，以见更广

我们提出 Multi-view Pyramid Transformer (MVP)，一种可扩展的多视角 transformer 架构，能够直接从十到数百...重建大型 3D 场景。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] OneStory：连贯的多镜头视频生成与自适应记忆

在真实世界的视频中，叙事通常通过多个镜头展开——这些镜头虽然不连续，却在语义上相连，共同传达一个连贯的叙事……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 分布匹配变分自编码器

大多数视觉生成模型在应用扩散或自回归建模之前，会将图像压缩到潜在空间中。然而，现有的方法，例如 VAEs ……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] HalluShift++：通过内部表征转移桥接语言与视觉，实现 MLLMs 中的层次幻觉

多模态大语言模型（MLLMs）在视觉‑语言理解任务中展示了卓越的能力。虽然这些模型经常产生语言……

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[论文] KAN-Dreamer：在世界模型中基准测试 Kolmogorov‑Arnold 网络作为函数逼近器

DreamerV3 是一种最先进的在线模型驱动强化学习（MBRL）算法，以其显著的样本效率而闻名。同时，Kolmogorov‑Arno…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 通过保持网络训练动态并使用 Concrete Ticket Search 赢得彩票

Lottery Ticket Hypothesis 断言，在密集、随机初始化的神经网络中存在高度稀疏、可训练的子网络（“winning tickets”）。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 弧形梯度下降：一种基于数学推导的梯度下降重新表述，具备相位感知、用户可控的步长动态

本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……

#research #paper #ai #machine-learning #nlp #computer-vision

Newer posts

Older posts