· ai
[Paper] InfiniDepth:任意分辨率和细粒度深度估计的神经隐式场
现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…
现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…
随着 AIGC(AI 生成内容)技术的进步,越来越多的生成模型正在革新视频编辑、音乐等领域。
近期的 text-to-video diffusion 模型能够生成引人入胜的视频序列,但它们仍然是无声的——缺失语义、情感和氛围线索……
虽然统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但它们在利用 su… 能力方面仍然存在显著差距。
多模态医学大型语言模型在胸部X光解读方面表现出令人印象深刻的进展,但仍然面临空间推理和……
基础模型(FMs)被视为一种变革性的突破,已开始重塑人工智能(AI)的未来,跨越学术...
扩散模型在图像和视频生成方面取得了显著成功。然而,它们固有的多步推理过程会带来巨大的计算成本……
精确且可扩展的细胞核实例分割对于计算病理学至关重要,然而千兆像素全切片图像带来了巨大的计算挑战。
尽管在高保真图像合成方面取得了令人印象深刻的进展,生成模型在逻辑密集型指令遵循方面仍然存在困难,暴露出一个持续的……
概述:全局注意力帮助计算机更好地看图像——不会丢失细节。通过在整幅图像中保留信息,模型可以保留……
检测未知的 deepfake 操作仍然是 face forgery detection 中最具挑战性的问题之一。当前最先进的方法未能生成……
我们提出了 VINO,一个统一的视觉生成器,能够在单一框架内进行图像和视频的生成与编辑。它不依赖于特定任务的……