[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪
Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式:tr...
Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式:tr...
最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而,这些方法中的大多数面临着…
实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…
GUI 代理的开发可能会彻底改变下一代人机交互。受此愿景的激励,我们提出了 MAI-UI,一个 … 系列。
基于提示的 Video Segmentation Foundation Models(VSFMs),如 SAM2,正日益在自动驾驶和数字病理等应用中部署,……
生成式人工智能的快速发展使得能够创建高度逼真的假面部图像,对个人 ... 构成了严重威胁。
在 VR 中创建物理上逼真的内容通常需要复杂的建模工具或预定义的 3D 模型、纹理和动画,这会带来显著的 b……
无人机(UAV)是灾后搜救的关键工具,面临信息密度高、视角快速变化等挑战……
请提供您需要翻译的具体摘录或摘要内容,我才能为您进行翻译。
LAION-400M 是一个巨大的公共资源,旨在激发新想法。它包含约 4 亿张图像,每张图像配有简短的标题,经过清理和 CLIP‑filtered。
概述 AutoAugment 是一种自动发现有效图像增强策略的方法。通过系统地测试许多简单的变换——例如…
高分辨率视频生成虽然对数字媒体和电影至关重要,但由于扩散模型的二次复杂度,在计算上成为瓶颈,...
我们揭示了最先进的视觉语言模型(VLMs)中显著的流行偏差,这些模型在著名建筑上的准确率最高可提升34%……
我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……
Segment Anything Model 2 (SAM2) 是一种视觉基础模型,在基于提示的视频目标分割方面取得了显著进展,但其实际部署仍面临挑战……
在大型全切片图像(WSI)中,对小块(tiles)的解释通常需要更大的图像上下文。我们提出了 TICON,一种基于 transformer 的 tile 表示方法……
Data processing inequality 是信息论中的一个原理,指出对观测到的信号进行处理时,信号的信息内容不能增加。
图形用户界面(GUI)代理可以通过自动化在移动设备上频繁执行的长延迟任务,显著提升生产力。然而,ex...
结构化数据从表格中提取在扫描文档和数字档案的文档图像分析中发挥着关键作用。虽然已经有许多方法……
现代外科系统日益依赖 intelligent scene understanding,以提供及时的 situational awareness,提升 intra-operative safety。 Within...
现代深度学习方法通常将图像序列视为顺序堆叠帧的大张量。然而,这种直接的表示是否…
在硬标签黑箱对抗攻击中,仅能访问 top-1 预测标签,巨大的查询复杂度对实际应用构成了主要障碍。
最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布,并使用 VAE 解码器将其映射到像素。虽然 th...
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...