computer vision — Page 10

排序:

2个月前 · ai · - · -

[Paper] 任务无关的持续学习用于胸部X光片分类

临床部署胸部X光分类器需要能够在新数据集可用时进行更新的模型，而无需对先前的...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 气象数据与天空图像结合神经模型进行光伏功率预测

由于可再生能源作为传统能源的替代品的使用率上升，尤其是太阳能，人们对研究…的兴趣日益增长。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] NeRFscopy：Neural Radiance Fields 用于体内时变组织的内镜成像

内镜在医学影像中至关重要，用于诊断、预后和治疗。开发一个稳健的动态 3D 重建流水线用于内镜视频……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 理解 vs. 生成：在多模态模型中的优化困境导航

当前对多模态模型的研究面临一个关键挑战，即提升生成能力往往会以牺牲理解能力为代价，反之亦然……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] RaCo：实用学习关键点的排序与协方差

本文介绍了 RaCo，一种轻量级神经网络，旨在学习稳健且多功能的关键点，适用于各种 3D 计算机视觉任务。Th...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] 基于语言与几何的稀疏体素表示用于整体场景理解

现有的 3D 开放词汇场景理解方法大多强调将来自 2D 基础模型的语言特征蒸馏到 3D 特征场中，但大...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 用 LoRAs 的权重基跨越视觉类比空间

视觉类比学习通过示范而非文本描述实现图像操作，使用户能够指定不同的复杂转换。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 使用 Sphere Encoder 进行图像生成

我们引入了 Sphere Encoder，这是一种高效的生成框架，能够在一次前向传播中生成图像，并且能够与多步扩散模型竞争……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Neurosim：一种用于神经形态机器人感知的快速模拟器

Neurosim 是一个快速、实时、高性能的库，用于模拟诸如动态视觉传感器、RGB相机、深度传感器和惯性传感器等传感器……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] ThermEval：用于热成像的视觉语言模型评估的结构化基准

视觉语言模型（VLMs）在RGB图像上表现出色，但它们无法推广到热成像。热感测在……中发挥关键作用。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] PAct：部件分解的单视图关节对象生成

Articulated objects 是交互式3D应用的核心，包括 embodied AI、robotics 和 VR/AR，在这些领域中，functional part decomposition 和 kinematic …

#research #paper #ai #computer-vision
2个月前 · ai · - · -

【论文】Wrivinder：面向将地面图像地理定位到卫星影像的空间智能

将 ground-level imagery 与 geo-registered satellite maps 对齐对于 mapping、navigation 和 situational awareness 至关重要，但在 la... 下仍具挑战性。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 挑选合适的专家：基于 Attentive Neural Process 的任务专用模型选择，作为代理式医疗系统的工具

任务专用模型构成了代理式医疗系统的骨干，使得代理能够在疾病诊断等任务中回答临床查询，……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 使用基于 CLIP 的语义对齐进行 Web 规模多模态摘要

我们引入 Web-Scale Multimodal Summarization，一个轻量级框架，通过结合从网络来源检索的文本和图像数据来生成摘要。G...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] GOT-JEPA：使用 Joint-Embedding Predictive Architecture 的通用目标跟踪、模型适应与遮挡处理

人类视觉系统通过将当前观察与先前观察到的信息整合，适应目标和场景的变化，并进行推理……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 重审柏拉图式表征假说：亚里士多德视角

Platonic Representation Hypothesis 认为，来自 neural networks 的表征正在收敛到一个共同的 reality 的 statistical model。我们展示了……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

Haar Cascades 到 YOLO：人脸检测迁移指南

仍在生产环境中运行的15年代码 Haar Cascades无处不在。如果你曾经使用过OpenCV的人脸检测器，你就使用了该方法，该方法发表于……

#face detection #Haar Cascades #YOLO #OpenCV #computer vision #model migration #deep learning
2个月前 · ai · - · -

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

通过观看人类视频来学习操作技能的能力有望为机器人学习打开一个高度可扩展的新数据来源。在这里，…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

Video Language Models (VideoLMs) 使 AI 系统能够理解视频中的 temporal dynamics。为了适应最大 context window 限制，当前的方法……

#research #paper #ai #machine-learning #nlp #computer-vision
2个月前 · ai · - · -

[Paper] FlexAM: 灵活的外观-运动分解用于多功能视频生成控制

在视频生成中实现有效且可推广的控制仍然是一个重大挑战。虽然许多方法依赖于模糊或特定任务的信号，但我们认为……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 单目无标记动作捕捉实现上肢可达工作空间的定量评估

验证一种临床可获取的方法，利用单目摄像头和人工智能对上肢可达工作空间 (UERW) 进行量化。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] LongStream：长序列流式自回归视觉几何

长序列流式3D重建仍然是一个重要的未解决挑战。现有的autoregressive模型在处理长序列时常常失败。它们 t...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

通过扩散模型从面部嵌入实现逼真人脸重建

随着面部识别（FR）系统的进步，隐私保护面部识别（PPFR）系统因其准确的识别而受到广泛关注，...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] One-Class 分类器的通用转换用于无监督异常检测

检测图像和视频中的异常是多个现实问题的关键任务，包括工业检测、计算机辅助诊断等。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] SIEFormer：光谱可解释与增强的Transformer用于通用类别发现

本文提出了一种新颖的方法——Spectral-Interpretable and -Enhanced Transformer (SIEFormer)，该方法利用光谱分析重新诠释注意力……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] EPRBench：高质量基准数据集用于基于事件流的视觉位置识别

基于事件流的视觉位置识别（VPR）是一项新兴的研究方向，提供了一个有力的解决方案，以应对传统可见光方法的不稳定性……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 自动驾驶车辆在恶劣天气条件下的目标检测鲁棒性

随着 self-driving technology 向广泛采用迈进，确定在不同 environmental conditions 下的安全 operational thresholds 变得至关重要……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 惊喜之笔：渐进式语义幻觉在 Vector Sketching 中

视觉错觉传统上依赖于空间操作，例如多视图一致性。在本工作中，我们引入了 Progressive Semantic Illusions，这是一种新颖的……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] UniT：统一多模态链式思考测试时扩展

统一模型能够在单一架构中同时处理多模态理解和生成，但它们通常在一次前向传播中完成，而不进行迭代……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] MonarchRT：高效注意力用于实时视频生成

使用 Diffusion Transformers 进行实时视频生成时，受到 3D self-attention 二次成本的瓶颈限制，尤其在实时模式下……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 面向 On-Policy SFT：分布判别理论及其在 LLM 训练中的应用

监督微调（SFT）在计算上高效，但相比强化学习（RL）通常会导致较差的泛化能力。这一差距主要是…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] DeepGen 1.0：轻量化统一多模态模型，推动图像生成与编辑

当前用于图像生成和编辑的统一多模态模型通常依赖于大规模参数（例如 >10B），导致训练成本高昂……

#multimodal-model #image-generation #diffusion-transformer #deep-learning #computer-vision
2个月前 · ai · - · -

[Paper] TexSpot：3D 纹理增强与空间均匀点潜在表示

高质量的3D纹理生成仍然是一个根本性的挑战，因为当前主流的 multi-view diffusion pipelines 所固有的视角不一致性。...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] SurfPhase：稀疏视频中的两相流 3D 界面动力学

两相流中的界面动力学支配动量、热和质量传递，但在实验上仍然难以测量。传统技术面临……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] GENIUS：生成式流体智力评估套件

统一多模态模型（UMMs）在视觉生成方面取得了显著进展。然而，现有基准主要评估结晶智力，……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[论文] PhyCritic：用于物理 AI 的多模态批评模型

随着大型多模态模型的快速发展，可靠的judge和critic模型已成为开放式评估和preference alignment的关键。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] FastFlow：通过Bandit推断加速生成流匹配模型

Flow-matching 模型在图像和视频生成方面提供了最先进的保真度，但其固有的顺序去噪过程使其速度较慢。Existin...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 首届国际 StepUP 脚步生物特征识别竞赛：方法、结果与剩余挑战

Biometric footstep recognition，基于人们在行走时脚下独特的压力模式，是一个新兴领域，应用正日益增长……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] PuriLight：一种轻量级 Shuffle 与 Purification 框架用于单目深度估计

我们提出了 PuriLight，一个轻量且高效的框架，用于自监督单目深度估计，以应对计算效率方面的双重挑战……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] SAGE：可扩展的代理式3D场景生成用于具身AI

现实世界中为具身代理收集数据仍然成本高且不安全，这需要可扩展、逼真且可直接用于模拟器的 3D 环境。然而，现有的……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 量子多重旋转平均

Multiple rotation averaging (MRA) 是 3D 视觉和机器人领域的一个基础优化问题，旨在恢复全局一致的绝对旋转 fr...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Olaf-World：面向视频世界建模的潜在动作定向

扩展 action‑controllable world models 受限于动作标签的稀缺。虽然 latent action learning 有望从 u… 提取 control interfaces。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] VideoWorld 2：从真实世界视频中学习可迁移的知识

从未标记的视频数据中学习可迁移的知识并将其应用于新环境，是智能体的一项基本能力。该工作预…

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 在流形上学习：利用表示编码器解锁标准 Diffusion Transformers

利用表示编码器进行生成建模提供了一条实现高效、高保真合成的路径。然而，标准的 diffusion transformers 未能…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] VLA-JEPA：增强视觉-语言-动作模型的潜在世界模型

在互联网规模的视频上进行视觉-语言-动作（VLA）策略的预训练很有吸引力，但当前的潜在动作目标往往学习错误的东西：它们……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 图像拼接和复制移动伪造能否用同一模型检测？Forensim：基于注意力的状态空间方法

我们介绍了 Forensim，这是一种基于注意力的状态空间框架，用于图像伪造检测，可同时定位被篡改（目标）区域和源区域……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Vendi Novelty Scores 用于分布外检测

Out-of-distribution (OOD) 检测对于机器学习系统的安全部署至关重要。现有的后置检测器通常依赖于模型置信度……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] WorldCompass：强化学习用于长时程世界模型

本工作提出了 WorldCompass，这是一种新颖的强化学习（RL）后训练框架，针对长期、交互式基于视频的世界模型，能够……

#research #paper #ai #computer-vision

Newer posts

Older posts