· ai · - · -
[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练
受生物启发的事件相机因其异步和低延迟特性最近吸引了大量研究。这些特性提供了高 dy...
受生物启发的事件相机因其异步和低延迟特性最近吸引了大量研究。这些特性提供了高 dy...
在视觉语言模型(VLMs)的推理能力缺乏一直是研究讨论的前沿。我们认为这种行为源于……
Open-vocabulary segmentation (OVS) 将视觉语言模型 (VLMs) 的零样本识别能力扩展到像素级预测,使得能够对…
Omni-modal reasoning 对于智能系统理解并从多样化数据源中进行推断是必不可少的。虽然现有的 omni-modal large language …
医学诊断需要有效地综合视觉表现和临床元数据。然而,现有方法往往将元数据视为孤立的任务……
近年来,大规模数据集阻碍了高效的模型训练,同时也包含冗余概念。Dataset distillation 旨在合成紧凑的数据集……
从非结构化点云数据中对动态3D对象进行时间一致的表面重建仍然具有挑战性,尤其是对于非常长的序列。E...
Egocentric manipulation videos 在交互过程中由于严重遮挡以及物体频繁进入和离开摄像头视野而极具挑战性……
现有的 action‑conditioned video generation models(video world models)局限于单代理视角,未能捕捉多代理交互……
生成式人工智能(GenAI)的进步促使开发出多种保护策略,以防止图像的未经授权使用。这些方法依赖于...
近年来,出现了一种标准的计算病理工作流程,将 whole slide images 裁剪成 tiles,这些 tiles 使用一个 foun...
对象幻觉是大型视觉语言模型(LVLMs)的一个关键问题,模型的输出可能包含输入图像中不存在的对象。一个自然…