computer-vision — Page 17

排序:

4个月前 · ai · - · -

[论文] Fast SAM2 with 文本驱动 Token 剪枝

Segment Anything Model 2 (SAM2) 是一种视觉基础模型，在基于提示的视频目标分割方面取得了显著进展，但其实际部署仍面临挑战……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] TICON：一种用于组织病理学表征学习的切片级Tile Contextualizer

在大型全切片图像（WSI）中，对小块（tiles）的解释通常需要更大的图像上下文。我们提出了 TICON，一种基于 transformer 的 tile 表示方法……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 数据处理不等式是否反映实践？关于低层任务的效用

Data processing inequality 是信息论中的一个原理，指出对观测到的信号进行处理时，信号的信息内容不能增加。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] AndroidLens: 长延迟评估与嵌套子目标的 Android GUI Agents

图形用户界面（GUI）代理可以通过自动化在移动设备上频繁执行的长延迟任务，显著提升生产力。然而，ex...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 基于掩码的表格分割后处理用于结构坐标提取

结构化数据从表格中提取在扫描文档和数字档案的文档图像分析中发挥着关键作用。虽然已经有许多方法……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 使用 Spike-Driven Video Transformer 的外科场景分割，具备实时潜力

现代外科系统日益依赖 intelligent scene understanding，以提供及时的 situational awareness，提升 intra-operative safety。 Within...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] GriDiT：因式分解的网格式扩散用于高效长图像序列生成

现代深度学习方法通常将图像序列视为顺序堆叠帧的大张量。然而，这种直接的表示是否…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 提升 Ray Search Optimization 的收敛率，以实现查询高效的硬标签攻击

在硬标签黑箱对抗攻击中，仅能访问 top-1 预测标签，巨大的查询复杂度对实际应用构成了主要障碍。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] SemanticGen: 语义空间中的视频生成

最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布，并使用 VAE 解码器将其映射到像素。虽然 th...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] LongVideoAgent：多智能体推理与长视频

最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展，表明了对长达数小时情节进行推理的前景。然而，许多方法...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] SpatialTree：空间能力在 MLLMs 中的分支

认知科学表明，空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型（MLLMs）中，这种层次...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 视频化身中的主动智能 via Closed-loop World Modeling

当前的视频化身生成方法在身份保持和动作对齐方面表现出色，但缺乏真实的自主性，它们无法自主追求长期目标。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] FedPOD：用于联邦学习的可部署训练单元

本文提出了 FedPOD（Proportionally Orchestrated Derivative），用于在多方联邦学习中优化学习效率和通信成本。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪

点跟踪旨在定位视频帧之间的对应点，作为四维重建、机器人技术和视频编辑的基础任务。现有...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Cube Bench：MLLMs空间视觉推理基准

我们引入了 Cube Bench，一个用于评估多模态大语言模型（MLLMs）在空间和序列推理方面的 Rubik's‑cube 基准。该基准...

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] LEAD：最小化学习者-专家不对称的端到端驾驶

Simulators 可以生成几乎无限的驾驶数据，但在仿真中，imitation learning policies 仍然难以实现稳健的 closed-loop performance……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] FlashVLM：文本引导的视觉令牌选择用于大型多模态模型

大型视觉语言模型（VLM）通常在每张图像或视频帧上处理数百甚至数千个视觉 token，导致二次注意力成本和 su...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 在4D中学习推理：用于视觉语言模型的动态空间理解

视觉语言模型（VLM）在通用理解方面表现出色，但在动态空间推理（DSR）方面仍然薄弱，即对对象 g... 的演变进行推理。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 使用衍射解码器的快照3D图像投影

3D图像显示对于下一代体积成像至关重要；然而，密集深度复用用于3D图像投影仍然具有挑战性，因为diff…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 生成式数字孪生：视觉‑语言仿真模型用于可执行工业系统

我们提出了一种视觉-语言仿真模型（VLSM），它统一了视觉和文本理解，以从布局草图中合成可执行的FlexScript……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 棱镜假设：通过统一自编码协调语义与像素表示

跨模态的深度表征本质上是交织在一起的。在本文中，我们系统地分析了各种语义和……的光谱特性。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Interact2Ar：通过自回归扩散模型实现全身人对人交互生成

生成逼真的 human-human 交互是一项具有挑战性的任务，它不仅需要高质量的单体身体和手部动作，还需要连贯的……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 推动视听感知前沿：大规模多模态对应学习

我们引入 Perception Encoder Audiovisual（PE-AV），一种用于音频和视频理解的新型编码器家族，采用缩放对比学习进行训练。构建于...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] Visual-Aware CoT：在统一模型中实现高保真视觉一致性

最近，Chain-of-Thought（CoT）的引入在很大程度上提升了统一模型的生成能力。然而，观察到当前的...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Zero-shot 重建视频中的场景内对象操作

我们构建了首个系统来解决从单目 RGB 视频中重建场景内对象操作的问题。由于该问题本质上是病态的……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 从室内到开放世界：揭示 MLLMs 中的空间推理差距

虽然多模态大语言模型（MLLMs）已经在语义任务上取得了令人印象深刻的表现，但它们的空间智能——对稳健和...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[论文] WorldWarp: 使用异步视频扩散传播3D几何

生成长距离、几何一致性的视频面临一个根本性的困境：虽然一致性要求在像素空间严格遵守3D geometry，……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 高效 Vision Mamba 用于 MRI 超分辨率的混合选择扫描

背景：高分辨率 MRI 对诊断至关重要，但长时间的采集限制了临床使用。超分辨率（SR）可以在扫描后提升分辨率……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 多模态 LLMs 用于从档案图像扫描构建历史数据集：德国专利（1877-1918）

我们利用多模态大型语言模型（LLMs），从 9,562 张档案图像扫描中构建了一个包含 306,070 项德国专利（1875‑1918）的数据集，使用我们的 LLM‑b…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 超越 CLIP：知识增强的多模态Transformer用于糖尿病视网膜病变诊断中的跨模态对齐

糖尿病视网膜病变（DR）是全球可预防失明的主要原因之一，需要准确的自动化诊断系统。虽然通用领域的视觉‑la…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] MapTrace: 可扩展的数据生成用于地图上的路径追踪

虽然Multimodal Large Language Models在许多visual和textual reasoning tasks上已经达到了类人水平的表现，但它们在细粒度spatial…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] KerJEPA：欧几里得自监督学习的核差异

近期在自监督 Joint-Embedding Predictive Architectures（JEPAs）方面的突破表明，正则化欧几里得表示以趋向 iso...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

YOLOv6：用于工业应用的单阶段目标检测框架

概述 YOLOv6 是面向工厂、商店和各类摄像头的目标检测新进展。它由一个专注于速度和可靠性的团队构建，……

#YOLOv6 #object detection #computer vision #real‑time AI #edge computing #industrial AI #open source
4个月前 · ai · - · -

[论文] 指出你的意思：Visually Grounded Instruction Policy

Vision-Language-Action (VLA) 模型将视觉和语言与具身控制对齐，但当仅依赖于 t 时，它们的对象指代能力仍然有限。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] LouvreSAE：稀疏自编码器用于可解释且可控的风格迁移

在生成模型中进行艺术风格迁移仍然是一个重大挑战，因为现有方法通常仅通过 model fine-tuning、additional a...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Delta-LLaVA：Base-then-Specialize 对齐用于令牌高效的视觉语言模型

多模态大型语言模型（MLLMs）结合视觉和文本表示，以实现丰富的推理能力。然而，高计算成本……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 超越标签的思考：Vocabulary-Free 细粒度识别，基于 Reasoning-Augmented LMMs

Vocabulary-free fine-grained image recognition 旨在在没有固定的人为定义标签集的情况下，区分元类内部视觉上相似的类别。Exi...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 在像素空间通过序数评分相关性定位 Shortcut Learning 以实现 Attribution Representations (OSCAR)

深度神经网络经常利用捷径。这些是与训练数据中的输出标签相关联的虚假线索，但与任务语义无关。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

神话：Computer Vision 仅对图像有效，而不是

误区：Computer Vision 只对图像有效，对视频无效。现实：Computer Vision 能同时处理图像和视频，这要归功于技术的进步……

#computer vision #video analysis #deep learning #temporal processing #AI myths
4个月前 · ai · - · -

[Paper] 深度学习方法在中世纪历史文献转录中的应用

手写文本识别和光学字符识别解决方案在处理现代时代的数据时表现出色，但效率在 La... 时会下降。

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

为 Triplet Loss 在行人再识别中的辩护

引言人员再识别（re-ID）是跨不同摄像头视角寻找同一人的任务。它在安防等领域具有重要应用……

#triplet loss #person re-identification #computer vision #deep learning #metric learning #end-to-end training
4个月前 · ai · - · -

使用动量对比学习的改进基准

概述：让计算机在没有标记数据的情况下识别模式——即无监督学习——由于对……的简单调整，已变得更加容易。

#momentum contrast #MoCo #contrastive learning #unsupervised learning #data augmentation #baseline improvement #computer vision
4个月前 · ai · - · -

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

现代潜在扩散模型（LDM）通常在低层次的变分自编码器（VAE）潜在空间中运行，这些空间主要针对像素级的重建进行优化。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

单目深度估计仍然具有挑战性，因为最近的基础模型，如 Depth Anything V2 (DA-V2)，在处理与真实世界图像相差甚远的情况时表现不佳。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而，当前的 digital twins 仍然规模庞大...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 开放基础模型中视觉的对抗鲁棒性

随着深度学习的提升，理解 AI 系统能够识别对象的模型变得越来越困难。因此，对手可能会……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] 用于多智能体交互序列建模的 Diffusion Forcing

理解和生成 multi-person interactions 是一个根本性的挑战，对 robotics 和 social computing 具有广泛的影响。虽然人类自然…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] RadarGen：从摄像头生成汽车雷达点云

我们提出了 RadarGen，这是一种扩散模型，用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts