computer-vision — Page 23

排序:

4个月前 · ai · - · -

[Paper] ReSAM：细化、重新查询与强化：自提示点监督遥感图像分割

交互式分割模型，例如 Segment Anything Model（SAM），在自然图像上展示了显著的泛化能力，但表现不佳……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

MoGAN：通过少步运动对抗后训练提升视频扩散中的运动质量

视频扩散模型在帧级保真度方面表现出色，但仍在运动连贯性、动态性和真实感方面存在困难，常常会产生抖动、重影或 …

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[论文] 多模态鲁棒提示蒸馏用于 3D 点云模型

对抗性攻击对基于学习的 3D 点云模型构成了重大威胁，严重削弱了它们在安全敏感应用中的可靠性。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] UAVLight：针对无人机（UAV）场景的光照鲁棒 3D 重建基准

Illumination inconsistency 是多视角 3D 重建中的一个根本性挑战。阳光方向、云层覆盖以及阴影的变化会破坏一致性……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 视频生成模型是优秀的潜在奖励模型

Reward feedback learning（ReFL）已被证明在将图像生成与人类偏好对齐方面有效。然而，将其扩展到视频生成面临…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Bangla 手语翻译：数据集创建挑战、基准测试与前景

Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制，因为该语言本身资源极其匮乏。标准的句子级数据集创建……

#sign-language #dataset #translation #computer-vision #benchmark
4个月前 · ai · - · -

[Paper] 年龄特异性阿尔茨海默病预测：非均匀时间跨度下的特征约束

阿尔茨海默病是一种导致认知功能下降的衰弱性疾病。及时识别该疾病对于疾病的早期干预和治疗方案的开发至关重要。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] EoS-FM：专家模型集合能作为通用特征提取器吗？

近期在 foundation models 方面的进展在 natural language processing 和 computer vision 等领域显示出巨大前景，类似的努力现在正在…

#ensemble learning #remote sensing #foundation models #computer vision #sustainability
4个月前 · ai · - · -

[Paper] 自适应学习用于抗核抗体图像

抗核抗体（ANA）检测是诊断自身免疫性疾病（包括系统性红斑狼疮、干燥综合征和硬皮病）的关键方法。尽管它的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 深度伪造检测器的通用设计选择

深度伪造检测方法的有效性往往不太取决于其核心设计，而更取决于实现细节，例如数据预处理、增强……

#deepfake detection #computer vision #benchmarking #model optimization
4个月前 · ai · - · -

[Paper] CanKD：基于跨注意力的非局部操作用于基于特征的知识蒸馏

我们提出了 Cross-Attention-based Non-local Knowledge Distillation (CanKD)，一种利用 cross-attention 的新型基于特征的知识蒸馏框架。

#knowledge distillation #cross-attention #computer vision #model compression #deep learning
4个月前 · ai · - · -

合并与界定：对权重的直接操作用于类增量学习

我们提出了一种新颖的训练方法 Merge-and-Bound (M&B)，用于类别增量学习 (CIL)，该方法直接在参数空间中操作模型权重，以实现高效且稳健的增量学习...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 频率感知的 Token 缩减用于高效 Vision Transformer

Vision Transformers 在各种计算机视觉任务中表现出卓越的性能，但它们相对于 token 的二次计算复杂度……

#vision transformers #token reduction #frequency-aware pruning #computer vision #model efficiency
4个月前 · ai · - · -

[Paper] MobileI2V：在移动设备上实现快速且高分辨率的图像到视频转换

最近，视频生成取得了快速进展，越来越多的关注集中在移动设备上的图像到视频（I2V）合成上。然而，子...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] EvRainDrop: HyperGraph 引导的完成用于有效的帧和事件流聚合

事件相机产生的异步事件流在空间上稀疏，但在时间上密集。主流的 event representation learning algorithms 通常…

#event cameras #hypergraph neural network #multimodal fusion #computer vision #deep learning
4个月前 · ai · - · -

[Paper] E-M3RF：一种等变多模态3D重新组装框架

3D 重组是一个基本的几何问题，近年来它越来越多地受到深度学习方法的挑战，而不是传统的优化方法。

#equivariant neural networks #multimodal 3D reconstruction #point cloud processing #computer vision
4个月前 · ai · - · -

[论文] SAM 引导的语义与运动变化区域挖掘用于遥感变化标题生成

遥感变化描述是一个新兴且受欢迎的研究任务，旨在用自然语言描述已发生变化的感兴趣内容……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Monet: 在潜在视觉空间中进行超越图像和语言的推理

‘以图像思考’已成为推进视觉推理的有效范式，通过注入视觉证据，超越仅文本的思考链……

#research #paper #ai #machine-learning #computer-vision
5个月前 · ai · - · -

[Paper] 使用边界框进行思考：通过强化微调提升时空视频定位

时空视频定位（STVG）需要根据自然语言描述，在未剪辑的视频中同时在时间和空间上定位目标对象。

#research #paper #ai #computer-vision
5个月前 · ai · - · -

[Paper] Endo-G$^{2}$T：几何引导 & 时间感知的时间嵌入 4DGS 用于内镜场景

内镜（endo）视频表现出强烈的视角依赖效应，例如 specularities、wet reflections 和 occlusions。纯 photometric supervision 会导致对齐错误……

#4D Gaussian Splatting #endoscopic reconstruction #computer vision #depth estimation #real-time rendering
5个月前 · ai · - · -

[Paper] PFF-Net：用于点云法线估计的补丁特征拟合

估计点的法线需要构建局部补丁以提供中心‑周围的上下文，但确定合适的邻域大小是……

#research #paper #ai #computer-vision
5个月前 · ai · - · -

SurgMLLMBench：用于外科场景理解的多模态大语言模型基准数据集

Recent advances in multimodal large language models (LLMs) have highlighted their potential for medical and surgical applications. However, existing surgical da... 近期在多模态大型语言模型（LLMs）方面的进展凸显了它们在医学和外科应用中的潜力。然而，现有的外科数据……

#research #paper #ai #machine-learning #computer-vision
5个月前 · ai · - · -

[Paper] 混合 SIFT‑SNN 用于交通流量控制基础设施的高效异常检测

本文提出了 SIFT‑SNN 框架，这是一种低延迟神经形态信号处理管道，用于实时检测运输中的结构异常。

#research #paper #ai #machine-learning #computer-vision
5个月前 · ai · - · -

[论文] 越多越好：用于高阶多模态对齐的对比融合

https://arxiv.org/abs/2305.12345 学习跨多模态的联合表示仍然是多模态机器学习中的核心挑战。当前的主流方法主要依赖于...（此处省略其余内容的中文翻译）

#research #paper #ai #machine-learning #computer-vision
5个月前 · ai · - · -

[Paper] TrafficLens：使用大型语言模型的多摄像头交通视频分析

Traffic cameras are essential in urban areas, playing a crucial role in intelligent transportation systems. Multiple cameras at intersections enhance law enforc...

#research #paper #ai #nlp #computer-vision

Newer posts

Older posts