[论文] Fast SAM2 with 文本驱动 Token 剪枝
Segment Anything Model 2 (SAM2) 是一种视觉基础模型,在基于提示的视频目标分割方面取得了显著进展,但其实际部署仍面临挑战……
Segment Anything Model 2 (SAM2) 是一种视觉基础模型,在基于提示的视频目标分割方面取得了显著进展,但其实际部署仍面临挑战……
在大型全切片图像(WSI)中,对小块(tiles)的解释通常需要更大的图像上下文。我们提出了 TICON,一种基于 transformer 的 tile 表示方法……
Data processing inequality 是信息论中的一个原理,指出对观测到的信号进行处理时,信号的信息内容不能增加。
图形用户界面(GUI)代理可以通过自动化在移动设备上频繁执行的长延迟任务,显著提升生产力。然而,ex...
结构化数据从表格中提取在扫描文档和数字档案的文档图像分析中发挥着关键作用。虽然已经有许多方法……
现代外科系统日益依赖 intelligent scene understanding,以提供及时的 situational awareness,提升 intra-operative safety。 Within...
现代深度学习方法通常将图像序列视为顺序堆叠帧的大张量。然而,这种直接的表示是否…
在硬标签黑箱对抗攻击中,仅能访问 top-1 预测标签,巨大的查询复杂度对实际应用构成了主要障碍。
最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布,并使用 VAE 解码器将其映射到像素。虽然 th...
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...
当前的视频化身生成方法在身份保持和动作对齐方面表现出色,但缺乏真实的自主性,它们无法自主追求长期目标。
本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。
点跟踪旨在定位视频帧之间的对应点,作为四维重建、机器人技术和视频编辑的基础任务。现有...
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
Simulators 可以生成几乎无限的驾驶数据,但在仿真中,imitation learning policies 仍然难以实现稳健的 closed-loop performance……
大型视觉语言模型(VLM)通常在每张图像或视频帧上处理数百甚至数千个视觉 token,导致二次注意力成本和 su...
视觉语言模型(VLM)在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然薄弱,即对对象 g... 的演变进行推理。
3D图像显示对于下一代体积成像至关重要;然而,密集深度复用用于3D图像投影仍然具有挑战性,因为diff…
我们提出了一种视觉-语言仿真模型(VLSM),它统一了视觉和文本理解,以从布局草图中合成可执行的FlexScript……
跨模态的深度表征本质上是交织在一起的。在本文中,我们系统地分析了各种语义和……的光谱特性。
生成逼真的 human-human 交互是一项具有挑战性的任务,它不仅需要高质量的单体身体和手部动作,还需要连贯的……
我们引入 Perception Encoder Audiovisual(PE-AV),一种用于音频和视频理解的新型编码器家族,采用缩放对比学习进行训练。构建于...
最近,Chain-of-Thought(CoT)的引入在很大程度上提升了统一模型的生成能力。然而,观察到当前的...
我们构建了首个系统来解决从单目 RGB 视频中重建场景内对象操作的问题。由于该问题本质上是病态的……
虽然多模态大语言模型(MLLMs)已经在语义任务上取得了令人印象深刻的表现,但它们的空间智能——对稳健和...
生成长距离、几何一致性的视频面临一个根本性的困境:虽然一致性要求在像素空间严格遵守3D geometry,……
背景:高分辨率 MRI 对诊断至关重要,但长时间的采集限制了临床使用。超分辨率(SR)可以在扫描后提升分辨率……
我们利用多模态大型语言模型(LLMs),从 9,562 张档案图像扫描中构建了一个包含 306,070 项德国专利(1875‑1918)的数据集,使用我们的 LLM‑b…
糖尿病视网膜病变(DR)是全球可预防失明的主要原因之一,需要准确的自动化诊断系统。虽然通用领域的视觉‑la…
虽然Multimodal Large Language Models在许多visual和textual reasoning tasks上已经达到了类人水平的表现,但它们在细粒度spatial…
近期在自监督 Joint-Embedding Predictive Architectures(JEPAs)方面的突破表明,正则化欧几里得表示以趋向 iso...
概述 YOLOv6 是面向工厂、商店和各类摄像头的目标检测新进展。它由一个专注于速度和可靠性的团队构建,……
Vision-Language-Action (VLA) 模型将视觉和语言与具身控制对齐,但当仅依赖于 t 时,它们的对象指代能力仍然有限。
在生成模型中进行艺术风格迁移仍然是一个重大挑战,因为现有方法通常仅通过 model fine-tuning、additional a...
多模态大型语言模型(MLLMs)结合视觉和文本表示,以实现丰富的推理能力。然而,高计算成本……
Vocabulary-free fine-grained image recognition 旨在在没有固定的人为定义标签集的情况下,区分元类内部视觉上相似的类别。Exi...
深度神经网络经常利用捷径。这些是与训练数据中的输出标签相关联的虚假线索,但与任务语义无关。
误区:Computer Vision 只对图像有效,对视频无效。 现实:Computer Vision 能同时处理图像和视频,这要归功于技术的进步……
手写文本识别和光学字符识别解决方案在处理现代时代的数据时表现出色,但效率在 La... 时会下降。
引言 人员再识别(re-ID)是跨不同摄像头视角寻找同一人的任务。它在安防等领域具有重要应用……
概述:让计算机在没有标记数据的情况下识别模式——即无监督学习——由于对……的简单调整,已变得更加容易。
现代潜在扩散模型(LDM)通常在低层次的变分自编码器(VAE)潜在空间中运行,这些空间主要针对像素级的重建进行优化。
单目深度估计仍然具有挑战性,因为最近的基础模型,如 Depth Anything V2 (DA-V2),在处理与真实世界图像相差甚远的情况时表现不佳。
近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...
随着深度学习的提升,理解 AI 系统能够识别对象的模型变得越来越困难。因此,对手可能会……
理解和生成 multi-person interactions 是一个根本性的挑战,对 robotics 和 social computing 具有广泛的影响。虽然人类自然…
我们提出了 RadarGen,这是一种扩散模型,用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-