[Paper] 像素级多模态对比学习用于遥感图像
卫星持续产生海量数据,尤其是用于地球观测,包括卫星图像时间序列(SITS)。然而,大多数深度学习...
卫星持续产生海量数据,尤其是用于地球观测,包括卫星图像时间序列(SITS)。然而,大多数深度学习...
代表用户与图形界面交互的 GUI 代理代表了实用 AI 助手的一个有前景的方向。然而,训练此类代理……
自动血液形态分析可以在低收入和中等收入国家(LMICs)支持血液学诊断,但仍然对 dataset shifts 敏感……
Large Multimodal Models (LMMs) 已展示出在通过 Chain-of-Thought (CoT) 进行视频推理方面的惊人能力。然而,它们推理的鲁棒性…
在静态图像上训练的前馈人工神经网络(ANNs)仍然是灵长类动物腹侧视觉通路的主导模型,然而它们本质上……
我们提出了 Muses,这是首个在前馈范式下实现奇幻 3D 生物生成的无训练方法。之前的方法依赖于部件感知的 opt...
现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…
随着 AIGC(AI 生成内容)技术的进步,越来越多的生成模型正在革新视频编辑、音乐等领域。
近期的 text-to-video diffusion 模型能够生成引人入胜的视频序列,但它们仍然是无声的——缺失语义、情感和氛围线索……
虽然统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但它们在利用 su… 能力方面仍然存在显著差距。
多模态医学大型语言模型在胸部X光解读方面表现出令人印象深刻的进展,但仍然面临空间推理和……
基础模型(FMs)被视为一种变革性的突破,已开始重塑人工智能(AI)的未来,跨越学术...
扩散模型在图像和视频生成方面取得了显著成功。然而,它们固有的多步推理过程会带来巨大的计算成本……
精确且可扩展的细胞核实例分割对于计算病理学至关重要,然而千兆像素全切片图像带来了巨大的计算挑战。
尽管在高保真图像合成方面取得了令人印象深刻的进展,生成模型在逻辑密集型指令遵循方面仍然存在困难,暴露出一个持续的……
概述:全局注意力帮助计算机更好地看图像——不会丢失细节。通过在整幅图像中保留信息,模型可以保留……
检测未知的 deepfake 操作仍然是 face forgery detection 中最具挑战性的问题之一。当前最先进的方法未能生成……
我们提出了 VINO,一个统一的视觉生成器,能够在单一框架内进行图像和视频的生成与编辑。它不依赖于特定任务的……
我们介绍了 Talk2Move,这是一种基于强化学习(RL)的扩散框架,用于文本指令驱动的场景中对象的空间变换。Spatially m...
偏远地区的农民需要快速可靠的植物病害识别方法,但他们往往缺乏实验室或高性能计算的渠道。
最近的研究提出将 3DGS 与语义特征向量相结合,以实现语义分割和图像渲染的同步进行。然而,这些方法通常将……
我们提出 BEDS(Bayesian Emergent Dissipative Structures),一个统一 non-equilibrium thermodynamics、Bayesian inference 等概念的理论框架。
无接触指纹识别提供了一种卫生且方便的替代方案,取代接触式系统,实现快速采集,无需潜在指纹,预…
Geo-Foundation Models(GFMs)已在多种下游应用中证明有效,包括语义分割、分类和回归任务。H...
单目全向视觉里程计(OVO)系统利用 360 度相机克服透视 VO 系统的视场限制。然而,ex...
随着人口增长,废物产生量不断增加,这对有效管理和回收材料带来了挑战。人工废物分类是……
基础分割模型,例如 Segment Anything Model(SAM),通过大规模预训练展现出强大的零样本泛化能力,但适应 th...
在图像中寻找最具信息量的点 这篇文章《Feature Detection, Part 3: Harris Corner Detection》首次发表于 Towards Data Science....
卷积神经网络(CNN)是视觉识别的标准方法,因为它们能够从原始像素中学习层次化表示……
基于指令的图像编辑是生成式 AI 中发展最快的领域之一。过去一年里,该领域已经达到新的水平,出现了数十个……
对 YOLOv1 如何衡量其目标检测和分类预测的正确性进行解释。帖子《YOLOv1 Loss Function Walkthrough: Regressi...》
Lumpy Skin Disease (LSD) 是一种传染性病毒感染,显著恶化牲畜健康,从而对全球经济构成严重威胁……
人脸验证系统已经取得了显著进展;然而,它们在决策过程中的透明度往往不足。在本文中,我们介绍…
介绍:在视频中换脸正变得越来越容易,得益于新的 deep‑fake 工具,我们已经看到名人因伪造的片段受到伤害……
概述 ZoeDepth 能够从单张图像预测深度,准确处理近处和远处的物体。它结合了两种学习策略:一种能够保留……
NationAI通过AI制作/消费3D动作数据的普及,解决“Next AI”时代核心的空间智能瓶颈。通过“Neuroid”和“Hey.D”构建3D数据飞轮,领先拥有百万用户基础的全球市场。The post “AI-3D 모션 기...”
概述 Mish 是一种简单的激活函数,能够显著提升基于图像的 AI 模型的性能。通过将标准激活函数替换为 M...
从单目视频重建动态3D场景需要同时捕捉高频外观细节和时间连续的运动。Exi...
左心室(LV)分割对于临床定量和心脏图像的诊断至关重要。在本工作中,我们提出了两种新颖的 deep learning 架构……
在本研究中,我们尝试释放自监督学习作为辅助任务的潜力,以优化通用深度伪造的主要任务。
联邦数据共享承诺在不集中原始数据的情况下提供实用性,但现有的嵌入级生成器在非IID客户端异质性和p...
虽然视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在检测图像和视频深度伪造方面表现出强大的泛化能力,但它们的…
结构化形状补全将缺失的几何体恢复为基元,而不是无结构点,这使得基元驱动的表面重建成为可能。 In...
手写的 STEM 考试捕捉开放式推理和图示,但人工评分速度慢且难以规模化。我们提出了一种端到端的工作流用于评分……
深度神经网络在制造业中自动化各种视觉质量检测任务方面显示出巨大的潜力。然而,它们的适用性在…
Vision-Language Models 已经在医学图像分析和疾病诊断中展示了强大的潜力。然而,在部署后,它们的性能可能…
在数字成像中,图像去马赛克是一个关键的第一步,它从颜色滤光阵列(CFA)中恢复RGB信息。通常,深度学习被…
图像和视频包含海量数据——但要从中提取有意义的洞察需要先进的 AI 系统。Computer Vision Services https://www...