[Paper] 任务无关的持续学习用于胸部X光片分类
临床部署胸部X光分类器需要能够在新数据集可用时进行更新的模型,而无需对先前的...
临床部署胸部X光分类器需要能够在新数据集可用时进行更新的模型,而无需对先前的...
由于可再生能源作为传统能源的替代品的使用率上升,尤其是太阳能,人们对研究…的兴趣日益增长。
内镜在医学影像中至关重要,用于诊断、预后和治疗。开发一个稳健的动态 3D 重建流水线用于内镜视频……
当前对多模态模型的研究面临一个关键挑战,即提升生成能力往往会以牺牲理解能力为代价,反之亦然……
本文介绍了 RaCo,一种轻量级神经网络,旨在学习稳健且多功能的关键点,适用于各种 3D 计算机视觉任务。Th...
现有的 3D 开放词汇场景理解方法大多强调将来自 2D 基础模型的语言特征蒸馏到 3D 特征场中,但大...
视觉类比学习通过示范而非文本描述实现图像操作,使用户能够指定不同的复杂转换。
我们引入了 Sphere Encoder,这是一种高效的生成框架,能够在一次前向传播中生成图像,并且能够与多步扩散模型竞争……
Neurosim 是一个快速、实时、高性能的库,用于模拟诸如动态视觉传感器、RGB相机、深度传感器和惯性传感器等传感器……
视觉语言模型(VLMs)在RGB图像上表现出色,但它们无法推广到热成像。热感测在……中发挥关键作用。
Articulated objects 是交互式3D应用的核心,包括 embodied AI、robotics 和 VR/AR,在这些领域中,functional part decomposition 和 kinematic …
将 ground-level imagery 与 geo-registered satellite maps 对齐对于 mapping、navigation 和 situational awareness 至关重要,但在 la... 下仍具挑战性。
任务专用模型构成了代理式医疗系统的骨干,使得代理能够在疾病诊断等任务中回答临床查询,……
我们引入 Web-Scale Multimodal Summarization,一个轻量级框架,通过结合从网络来源检索的文本和图像数据来生成摘要。G...
人类视觉系统通过将当前观察与先前观察到的信息整合,适应目标和场景的变化,并进行推理……
Platonic Representation Hypothesis 认为,来自 neural networks 的表征正在收敛到一个共同的 reality 的 statistical model。我们展示了……
仍在生产环境中运行的15年代码 Haar Cascades无处不在。如果你曾经使用过OpenCV的人脸检测器,你就使用了该方法,该方法发表于……
通过观看人类视频来学习操作技能的能力有望为机器人学习打开一个高度可扩展的新数据来源。在这里,…
Video Language Models (VideoLMs) 使 AI 系统能够理解视频中的 temporal dynamics。为了适应最大 context window 限制,当前的方法……
在视频生成中实现有效且可推广的控制仍然是一个重大挑战。虽然许多方法依赖于模糊或特定任务的信号,但我们认为……
验证一种临床可获取的方法,利用单目摄像头和人工智能对上肢可达工作空间 (UERW) 进行量化。
长序列流式3D重建仍然是一个重要的未解决挑战。现有的autoregressive模型在处理长序列时常常失败。它们 t...
随着面部识别(FR)系统的进步,隐私保护面部识别(PPFR)系统因其准确的识别而受到广泛关注,...
检测图像和视频中的异常是多个现实问题的关键任务,包括工业检测、计算机辅助诊断等。
本文提出了一种新颖的方法——Spectral-Interpretable and -Enhanced Transformer (SIEFormer),该方法利用光谱分析重新诠释注意力……
基于事件流的视觉位置识别(VPR)是一项新兴的研究方向,提供了一个有力的解决方案,以应对传统可见光方法的不稳定性……
随着 self-driving technology 向广泛采用迈进,确定在不同 environmental conditions 下的安全 operational thresholds 变得至关重要……
视觉错觉传统上依赖于空间操作,例如多视图一致性。在本工作中,我们引入了 Progressive Semantic Illusions,这是一种新颖的……
统一模型能够在单一架构中同时处理多模态理解和生成,但它们通常在一次前向传播中完成,而不进行迭代……
使用 Diffusion Transformers 进行实时视频生成时,受到 3D self-attention 二次成本的瓶颈限制,尤其在实时模式下……
监督微调(SFT)在计算上高效,但相比强化学习(RL)通常会导致较差的泛化能力。这一差距主要是…
当前用于图像生成和编辑的统一多模态模型通常依赖于大规模参数(例如 >10B),导致训练成本高昂……
高质量的3D纹理生成仍然是一个根本性的挑战,因为当前主流的 multi-view diffusion pipelines 所固有的视角不一致性。...
两相流中的界面动力学支配动量、热和质量传递,但在实验上仍然难以测量。传统技术面临……
统一多模态模型(UMMs)在视觉生成方面取得了显著进展。然而,现有基准主要评估结晶智力,……
随着大型多模态模型的快速发展,可靠的judge和critic模型已成为开放式评估和preference alignment的关键。
Flow-matching 模型在图像和视频生成方面提供了最先进的保真度,但其固有的顺序去噪过程使其速度较慢。Existin...
Biometric footstep recognition,基于人们在行走时脚下独特的压力模式,是一个新兴领域,应用正日益增长……
我们提出了 PuriLight,一个轻量且高效的框架,用于自监督单目深度估计,以应对计算效率方面的双重挑战……
现实世界中为具身代理收集数据仍然成本高且不安全,这需要可扩展、逼真且可直接用于模拟器的 3D 环境。然而,现有的……
Multiple rotation averaging (MRA) 是 3D 视觉和机器人领域的一个基础优化问题,旨在恢复全局一致的绝对旋转 fr...
扩展 action‑controllable world models 受限于动作标签的稀缺。虽然 latent action learning 有望从 u… 提取 control interfaces。
从未标记的视频数据中学习可迁移的知识并将其应用于新环境,是智能体的一项基本能力。该工作预…
利用表示编码器进行生成建模提供了一条实现高效、高保真合成的路径。然而,标准的 diffusion transformers 未能…
在互联网规模的视频上进行视觉-语言-动作(VLA)策略的预训练很有吸引力,但当前的潜在动作目标往往学习错误的东西:它们……
我们介绍了 Forensim,这是一种基于注意力的状态空间框架,用于图像伪造检测,可同时定位被篡改(目标)区域和源区域……
Out-of-distribution (OOD) 检测对于机器学习系统的安全部署至关重要。现有的后置检测器通常依赖于模型置信度……
本工作提出了 WorldCompass,这是一种新颖的强化学习(RL)后训练框架,针对长期、交互式基于视频的世界模型,能够……