[Paper] Visual-ERM:视觉等价的奖励建模
Vision-to-code 任务要求模型将结构化的视觉输入(例如图表、表格和 SVG)重建为可执行或结构化的表示……
Vision-to-code 任务要求模型将结构化的视觉输入(例如图表、表格和 SVG)重建为可执行或结构化的表示……
世界中的演化,例如水流动或冰融化,都会在不被观察的情况下发生。Video world models 通过 2D frame observation 生成“世界”。
时空场景图为建模不断演化的对象交互提供了原则性的表示,但现有方法仍然根本上是以帧为中心(frame‑centric)的……
基于磁共振成像(MRI)的脑肿瘤分类在计算机辅助诊断系统中发挥着重要作用。近年来……
在现代的人机协作(HRC)应用中,多个感知模块共同提取视觉、听觉和上下文线索,以实现对……
概念瓶颈模型(Concept Bottleneck Models,CBMs)是通过一层人类可解释概念来传递预测的可解释模型。虽然在视觉领域被广泛研究……
基于扩散的图像压缩最近展示了卓越的感知保真度,但其实际可行性受到高昂的采样开销和高...
Face de-identification (FDeID) 旨在从面部图像中移除个人可识别信息,同时保留任务相关的效用属性,例如……
理解注意力机制的理论基础仍然具有挑战性,因为它们具有复杂的非线性动力学。本工作揭示了一个基本的……
扩散模型在将噪声转化为照片时实际上在做什么?我们展示了确定性 DDIM 逆向链的工作方式相当于一个 Partitioned Iter…
强化学习(RL)已成为后训练扩散式图像合成模型的标准技术,因为它能够从奖励信号中学习……
自回归(AR)视频生成模型依赖于将像素压缩为离散 token 序列的视频 tokenizer。这些 token 序列的长度是 …
多模态大型语言模型(MLLMs)正日益用于执行视觉工作流,例如在 GUI 中进行导航,其中下一步取决于已验证的视觉……
现代视觉代理需要具备通用的、因果的、以及物理结构化的表征,以在实时流媒体环境中运行。然而,当前…
Unified multimodal models 旨在实现联合理解、推理和生成,但当前的 image editing benchmarks 主要局限于自然图像和……
在线视频大语言模型(VideoLLMs)在支持响应式、实时交互方面发挥关键作用。现有方法侧重于流式感知……
文本到图像生成模型发展迅速,但实现对生成图像的细粒度控制仍然困难,主要是由于对...的有限了解。
人类通过一连串的视觉观察来感知和理解现实世界的空间。因此,能够流式地维护和更新空间证据的能力……
现有的视频深度估计面临一个根本性的权衡:生成模型会出现随机的几何幻觉和尺度漂移,而判别模型……
构建用于基础模型训练的科学多模态文档推理数据集涉及规模、忠实性和现实性之间的固有权衡。
在遥感图像中,显著目标检测(Salient object detection, SOD)面临着显著的挑战,主要由于目标尺寸变化幅度大,以及自注意力(self‑att)的计算成本……
生成与视频事件在时间上对齐的音乐对于现有的 text-to-music 模型来说是具有挑战性的,因为它们缺乏细粒度的 temporal control。我们介绍…
近期在文本到图像(T2I)生成方面的进展显著提升了视觉质量,但要生成在视觉上与真实世界照片相媲美的图像仍然具有挑战性。
机制可解释性的核心思想是,神经网络所表示的特征数量超过其维度,通过 superposition 将它们排列在一起,以…
在线新视角合成仍然具有挑战性,需要从顺序的、通常未标定的观测中进行稳健的场景重建。我们提出了 ReCoSplat,一个 au...
Multiple Instance Learning (MIL) 已被广泛应用于组织病理学,以对 Whole Slide Images (WSIs) 进行切片级诊断的分类。虽然 ground tr...
传统的临床CMR工作流程依赖于顺序的“重建-再分析”范式,迫使出现一个病态的中间步骤,导致可避免的…
在介入放射学中,Cone‑Beam Computed Tomography (CBCT) 是一种有用的成像方式,可在微创手术期间为从业者提供引导。
文本-动作检索旨在学习自然语言描述与 3D 人体动作骨骼序列之间的语义对齐潜在空间,从而实现……
Chamfer distance 是点云重建、补全和生成的标准训练损失,但直接优化它可能会产生更差的 Chamfer …
Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……
自回归(AR)扩散提供了一种有前景的框架,用于生成理论上无限长度的视频。然而,一个主要挑战是保持…
我们解决了一个具有挑战性的任务:从混合音频流中为两个交互的、同处的参与者生成完整的3D面部动画。虽然现有的……
最近在3D Gaussian Splatting(3DGS)方面的进展已经将重点转向在重建保真度与计算效率之间取得平衡。在本工作中,...
随着视频内容创作向长篇叙事转变,将短片组合成连贯的故事线变得日益重要。然而,现有的……
无模板的可动画头部化身可以通过直接从被摄对象的捕获中学习表情依赖的面部变形,实现高视觉保真度,av...
确保开放世界视觉识别的可信度需要模型具备可解释性、公平性,并且对分布转移具有鲁棒性。然而,现代视觉系统...
流媒体视频理解通常涉及时间敏感的场景,模型需要精确回答支持的视觉证据出现的时间:回答…
高风险可解释性在医学诊断中的应用 在高风险环境如医学诊断中,用户通常想了解是什么导致计算机视觉模型…
多模态大型语言模型(MLLM)的分类性能在很大程度上取决于评估协议和真实标签的质量。比较MLLM的研究……
虽然近期的多模态大语言模型(MLLMs)取得了令人印象深刻的进展,但它们主要采用传统的自回归架构作为其……
增量少样本(IFS)分割旨在通过仅少量标注随时间学习新类别。虽然在 2D 中已被广泛研究,但仍未得到充分利用……
外科医生不仅仅是看——他们在解读。当专家观察手术现场时,他们不仅了解正在使用的器械是什么,还明白为什么选择它……
Vision Language Model (VLM) 的开发在很大程度上依赖于扩大模型规模,这阻碍了在计算受限的移动和边缘设备上的部署……
下一代自动驾驶车辆(AVs)依赖大量的多源和多模态(M^2)数据来支持实时决策。实际上,数据...
我们介绍了SurgFormer,一种用于体积网格上数据驱动软组织仿真的多分辨率门控Transformer。高保真生物力学求解器…
否定是一个基本的语言运算符,但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中,我们提出了一个形式化的……
高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…