[Paper] ImLoc:重新审视基于图像表示的视觉定位
现有的视觉定位方法通常要么是 2D image-based 的,这类方法易于构建和维护,但在有效的几何推理方面受限,或者……
现有的视觉定位方法通常要么是 2D image-based 的,这类方法易于构建和维护,但在有效的几何推理方面受限,或者……
病理基础模型(PFMs)已成为计算病理学的核心,旨在提供用于从全切片图像中提取特征的通用编码器……
远程光电容积描记(rPPG)从普通摄像头捕获的面部视频中估计血容量脉冲(BVP)波形。虽然最近的深度模型 i...
Direct Preference Optimization (DPO) 最近通过提升视觉保真度和文本对齐,改进了文本到视频(T2V)生成。然而,当前的方法…
音视频联合生成已经快速发展,但仍然存在重大挑战。非商业方法仍然存在音视频不同步的问题,...
随着世界模型在 Embodied AI 中获得动力,越来越多的工作探索使用 video foundation models 作为预测性世界模型,以用于下游 embo...
卫星持续产生海量数据,尤其是用于地球观测,包括卫星图像时间序列(SITS)。然而,大多数深度学习...
代表用户与图形界面交互的 GUI 代理代表了实用 AI 助手的一个有前景的方向。然而,训练此类代理……
自动血液形态分析可以在低收入和中等收入国家(LMICs)支持血液学诊断,但仍然对 dataset shifts 敏感……
Large Multimodal Models (LMMs) 已展示出在通过 Chain-of-Thought (CoT) 进行视频推理方面的惊人能力。然而,它们推理的鲁棒性…
在静态图像上训练的前馈人工神经网络(ANNs)仍然是灵长类动物腹侧视觉通路的主导模型,然而它们本质上……
我们提出了 Muses,这是首个在前馈范式下实现奇幻 3D 生物生成的无训练方法。之前的方法依赖于部件感知的 opt...