computer vision — Page 15

排序:

3个月前 · ai · - · -

[Paper] 像素级多模态对比学习用于遥感图像

卫星持续产生海量数据，尤其是用于地球观测，包括卫星图像时间序列（SITS）。然而，大多数深度学习...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] InfiniteWeb：可扩展的 Web 环境合成用于 GUI 代理训练

代表用户与图形界面交互的 GUI 代理代表了实用 AI 助手的一个有前景的方向。然而，训练此类代理……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] MORPHFED：Federated Learning用于跨机构血液形态分析

自动血液形态分析可以在低收入和中等收入国家（LMICs）支持血液学诊断，但仍然对 dataset shifts 敏感……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 跨模态冲突下大型多模态模型推理一致性分析

Large Multimodal Models (LMMs) 已展示出在通过 Chain-of-Thought (CoT) 进行视频推理方面的惊人能力。然而，它们推理的鲁棒性…

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[论文] 更好，但仍不足：测试视频ANNs对猕猴IT动态

在静态图像上训练的前馈人工神经网络（ANNs）仍然是灵长类动物腹侧视觉通路的主导模型，然而它们本质上……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] Muses：设计、构思、生成无需训练的不存在的幻想3D生物

我们提出了 Muses，这是首个在前馈范式下实现奇幻 3D 生物生成的无训练方法。之前的方法依赖于部件感知的 opt...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] InfiniDepth：任意分辨率和细粒度深度估计的神经隐式场

现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 多功能多模态代理用于多媒体内容生成

随着 AIGC（AI 生成内容）技术的进步，越来越多的生成模型正在革新视频编辑、音乐等领域。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] LTX-2：高效联合音频-视觉基础模型

近期的 text-to-video diffusion 模型能够生成引人入胜的视频序列，但它们仍然是无声的——缺失语义、情感和氛围线索……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] UniCorn：通过自生成监督实现自我改进的统一多模态模型

虽然统一多模态模型（UMMs）在跨模态理解方面取得了显著成功，但它们在利用 su… 能力方面仍然存在显著差距。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] AnatomiX，一种解剖感知的基于真实的多模态大型语言模型用于胸部X光片解读

多模态医学大型语言模型在胸部X光解读方面表现出令人印象深刻的进展，但仍然面临空间推理和……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 多模态数据增强的基础模型在无线网络中的预测与控制：综述

基础模型（FMs）被视为一种变革性的突破，已开始重塑人工智能（AI）的未来，跨越学术...

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] DiffBench 与 DiffAgent：端到端 LLM 驱动的 Diffusion 加速代码生成

扩散模型在图像和视频生成方面取得了显著成功。然而，它们固有的多步推理过程会带来巨大的计算成本……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] LSP-DETR: 高效且可扩展的全切片图像细胞核分割

精确且可扩展的细胞核实例分割对于计算病理学至关重要，然而千兆像素全切片图像带来了巨大的计算挑战。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Unified Thinker：通用推理模块化核心用于图像生成

尽管在高保真图像合成方面取得了令人印象深刻的进展，生成模型在逻辑密集型指令遵循方面仍然存在困难，暴露出一个持续的……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

全局注意力机制：保留信息以增强通道-空间交互

概述：全局注意力帮助计算机更好地看图像——不会丢失细节。通过在整幅图像中保留信息，模型可以保留……

#global attention #computer vision #image recognition #channel-spatial interaction #deep learning #neural networks #mobile AI
3个月前 · ai · - · -

【论文】ExposeAnyone：个性化 Audio-to-Expression 扩散模型是鲁棒的 Zero-Shot 人脸伪造检测器

检测未知的 deepfake 操作仍然是 face forgery detection 中最具挑战性的问题之一。当前最先进的方法未能生成……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] VINO：统一视觉生成器与交错全模态上下文

我们提出了 VINO，一个统一的视觉生成器，能够在单一框架内进行图像和视频的生成与编辑。它不依赖于特定任务的……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Talk2Move：强化学习用于文本指令的对象级几何变换（场景中）

我们介绍了 Talk2Move，这是一种基于强化学习（RL）的扩散框架，用于文本指令驱动的场景中对象的空间变换。Spatially m...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Meta-Learning 引导的 Pruning 用于 Edge Devices 上的 Few-Shot 植物病理

偏远地区的农民需要快速可靠的植物病害识别方法，但他们往往缺乏实验室或高性能计算的渠道。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 3D Gaussian Modeling 中的联合语义与渲染增强，使用各向异性局部编码

最近的研究提出将 3DGS 与语义特征向量相结合，以实现语义分割和图像渲染的同步进行。然而，这些方法通常将……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] BEDS：贝叶斯新兴耗散结构

我们提出 BEDS（Bayesian Emergent Dissipative Structures），一个统一 non-equilibrium thermodynamics、Bayesian inference 等概念的理论框架。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] Fusion2Print：深度闪光‑非闪光融合用于无接触指纹匹配

无接触指纹识别提供了一种卫生且方便的替代方案，取代接触式系统，实现快速采集，无需潜在指纹，预…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Prithvi-Complimentary Adaptive Fusion Encoder (CAFE)：解锁洪水淹没制图的全部潜力

Geo-Foundation Models（GFMs）已在多种下游应用中证明有效，包括语义分割、分类和回归任务。H...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 360DVO: 深度视觉里程计用于单目360度相机

单目全向视觉里程计（OVO）系统利用 360 度相机克服透视 VO 系统的视场限制。然而，ex...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] SortWaste：工业废物分拣目标检测的密集标注数据集

随着人口增长，废物产生量不断增加，这对有效管理和回收材料带来了挑战。人工废物分类是……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] TopoLoRA-SAM：拓扑感知参数高效适配基础分割模型用于细结构和跨域二值语义分割

基础分割模型，例如 Segment Anything Model（SAM），通过大规模预训练展现出强大的零样本泛化能力，但适应 th...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

特征检测，第3部分：Harris角点检测

在图像中寻找最具信息量的点这篇文章《Feature Detection, Part 3: Harris Corner Detection》首次发表于 Towards Data Science....

#harris corner detection #feature detection #computer vision #image processing #corner detection
3个月前 · ai · - · -

[论文] 定制CNN、预训练模型与Transfer Learning在多个视觉数据集上的比较研究

卷积神经网络（CNN）是视觉识别的标准方法，因为它们能够从原始像素中学习层次化表示……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] VIBE：基于视觉指令的编辑器

基于指令的图像编辑是生成式 AI 中发展最快的领域之一。过去一年里，该领域已经达到新的水平，出现了数十个……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

YOLOv1 损失函数详解：全回归

对 YOLOv1 如何衡量其目标检测和分类预测的正确性进行解释。帖子《YOLOv1 Loss Function Walkthrough: Regressi...》

#YOLOv1 #loss function #object detection #computer vision #deep learning
3个月前 · ai · - · -

[Paper] 自适应混合优化器驱动框架用于结节性皮肤病识别

Lumpy Skin Disease (LSD) 是一种传染性病毒感染，显著恶化牲畜健康，从而对全球经济构成严重威胁……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] VerLM: 使用自然语言解释人脸验证

人脸验证系统已经取得了显著进展；然而，它们在决策过程中的透明度往往不足。在本文中，我们介绍…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

DeepFakes：对人脸识别的新威胁？评估与检测

介绍：在视频中换脸正变得越来越容易，得益于新的 deep‑fake 工具，我们已经看到名人因伪造的片段受到伤害……

#deepfake #face recognition #AI detection #computer vision #security
3个月前 · ai · - · -

ZoeDepth：通过结合相对深度和度量深度实现零样本迁移

概述 ZoeDepth 能够从单张图像预测深度，准确处理近处和远处的物体。它结合了两种学习策略：一种能够保留……

#depth estimation #computer vision #zero-shot transfer #ZoeDepth #neural networks #image processing #relative depth #metric depth
3个月前 · ai · - · -

用 AI-3D 动作技术开启‘Next AI 时代’，Nation A 代表 유수연

NationAI通过AI制作/消费3D动作数据的普及，解决“Next AI”时代核心的空间智能瓶颈。通过“Neuroid”和“Hey.D”构建3D数据飞轮，领先拥有百万用户基础的全球市场。The post “AI-3D 모션 기...”

#AI #3D motion #spatial intelligence #Neuroid #Hey.D #NationAI #generative AI #computer vision
3个月前 · ai · - · -

Mish：自正则化非单调激活函数

概述 Mish 是一种简单的激活函数，能够显著提升基于图像的 AI 模型的性能。通过将标准激活函数替换为 M...

#Mish activation #neural networks #deep learning #computer vision #image recognition #regularization #activation functions
3个月前 · ai · - · -

[Paper] AdaGaR：自适应 Gabor 表示用于动态场景重建

从单目视频重建动态3D场景需要同时捕捉高频外观细节和时间连续的运动。Exi...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

左心室（LV）分割对于临床定量和心脏图像的诊断至关重要。在本工作中，我们提出了两种新颖的 deep learning 架构……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] Fusion-SSAT：通过特征融合释放自监督辅助任务的潜力，以实现通用深度伪造检测

在本研究中，我们尝试释放自监督学习作为辅助任务的潜力，以优化通用深度伪造的主要任务。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] FedHypeVAE：联邦学习与超网络生成的条件VAE用于差分隐私嵌入共享

联邦数据共享承诺在不集中原始数据的情况下提供实用性，但现有的嵌入级生成器在非IID客户端异质性和p...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 研究在音频深度伪造检测背景下使用多模态大型语言模型的可行性

虽然视觉语言模型（VLMs）和多模态大语言模型（MLLMs）在检测图像和视频深度伪造方面表现出强大的泛化能力，但它们的…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 统一原语代理用于结构化形状补全

结构化形状补全将缺失的几何体恢复为基元，而不是无结构点，这使得基元驱动的表面重建成为可能。 In...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 使用多模态大语言模型对手写工程考试进行评分

手写的 STEM 考试捕捉开放式推理和图示，但人工评分速度慢且难以规模化。我们提出了一种端到端的工作流用于评分……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 多层特征融合用于视觉质量检测的持续学习

深度神经网络在制造业中自动化各种视觉质量检测任务方面显示出巨大的潜力。然而，它们的适用性在…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 检测病理视觉-语言模型在数据漂移下的性能下降

Vision-Language Models 已经在医学图像分析和疾病诊断中展示了强大的潜力。然而，在部署后，它们的性能可能…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 使用空间下采样各向同性网络的高效深度去马赛克

在数字成像中，图像去马赛克是一个关键的第一步，它从颜色滤光阵列（CFA）中恢复RGB信息。通常，深度学习被…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

计算机视觉服务：使用 Oodles 构建智能视觉系统

图像和视频包含海量数据——但要从中提取有意义的洞察需要先进的 AI 系统。Computer Vision Services https://www...

#computer vision #deep learning #AI #image analytics #object detection #OCR #neural networks #visual data

Newer posts

Older posts