computer-vision — Page 7

排序:

1个月前 · ai · - · -

[Paper] Visual-ERM：视觉等价的奖励建模

Vision-to-code 任务要求模型将结构化的视觉输入（例如图表、表格和 SVG）重建为可执行或结构化的表示……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 眼不见，心不烦？评估视频世界模型中的状态演化

世界中的演化，例如水流动或冰融化，都会在不被观察的情况下发生。Video world models 通过 2D frame observation 生成“世界”。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[论文] 面向单目视频的时空世界场景图生成

时空场景图为建模不断演化的对象交互提供了原则性的表示，但现有方法仍然根本上是以帧为中心（frame‑centric）的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 基于扩散的特征去噪与使用 NNMF 的鲁棒脑肿瘤分类

基于磁共振成像（MRI）的脑肿瘤分类在计算机辅助诊断系统中发挥着重要作用。近年来……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 感知重要内容：相关性驱动的调度用于多模态流式感知

在现代的人机协作（HRC）应用中，多个感知模块共同提取视觉、听觉和上下文线索，以实现对……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 迈向可信的多模态概念瓶颈模型

概念瓶颈模型（Concept Bottleneck Models，CBMs）是通过一层人类可解释概念来传递预测的可解释模型。虽然在视觉领域被广泛研究……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] DiT-IC：对齐扩散Transformer用于高效图像压缩

基于扩散的图像压缩最近展示了卓越的感知保真度，但其实际可行性受到高昂的采样开销和高...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

【论文】FDeID-Toolbox：人脸去身份化工具箱

Face de-identification (FDeID) 旨在从面部图像中移除个人可识别信息，同时保留任务相关的效用属性，例如……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 线性化注意力中的影响可塑性：非收敛 NTK 动力学的双重含义

理解注意力机制的理论基础仍然具有挑战性，因为它们具有复杂的非线性动力学。本工作揭示了一个基本的……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[论文] 实用化的分形：去噪扩散作为分区迭代函数系统

扩散模型在将噪声转化为照片时实际上在做什么？我们展示了确定性 DDIM 逆向链的工作方式相当于一个 Partitioned Iter…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Finite Difference Flow Optimization 用于 RL 后训练的 Text-to-Image Models

强化学习（RL）已成为后训练扩散式图像合成模型的标准技术，因为它能够从奖励信号中学习……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] EVATok：自适应长度视频标记化用于高效视觉自回归生成

自回归（AR）视频生成模型依赖于将像素压缩为离散 token 序列的视频 tokenizer。这些 token 序列的长度是 …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MM-CondChain：程序化验证的视觉基础深度组合推理基准

多模态大型语言模型（MLLMs）正日益用于执行视觉工作流，例如在 GUI 中进行导航，其中下一步取决于已验证的视觉……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] OmniStream：在连续流中掌握感知、重建和动作

现代视觉代理需要具备通用的、因果的、以及物理结构化的表征，以在实时流媒体环境中运行。然而，当前…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] GRADE：对图像编辑中学科驱动推理的基准测试

Unified multimodal models 旨在实现联合理解、推理和生成，但当前的 image editing benchmarks 主要局限于自然图像和……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 视频流思考：VideoLLMs 可同时观看和思考

在线视频大语言模型（VideoLLMs）在支持响应式、实时交互方面发挥关键作用。现有方法侧重于流式感知……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 潜在颜色子空间：高维混沌中的涌现秩序

文本到图像生成模型发展迅速，但实现对生成图像的细粒度控制仍然困难，主要是由于对...的有限了解。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Spatial‑TTT: 基于流式视觉的空间智能与测试时训练

人类通过一连串的视觉观察来感知和理解现实世界的空间。因此，能够流式地维护和更新空间证据的能力……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] DVD：确定性视频深度估计与生成先验

现有的视频深度估计面临一个根本性的权衡：生成模型会出现随机的几何幻觉和尺度漂移，而判别模型……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SciMDR：基准测试与推进科学多模态文档推理

构建用于基础模型训练的科学多模态文档推理数据集涉及规模、忠实性和现实性之间的固有权衡。

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[论文] RDNet：面向区域比例感知的动态自适应光学遥感图像显著目标检测网络

在遥感图像中，显著目标检测（Salient object detection, SOD）面临着显著的挑战，主要由于目标尺寸变化幅度大，以及自注意力（self‑att）的计算成本……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] V2M-Zero：零配对时间对齐视频到音乐生成

生成与视频事件在时间上对齐的音乐对于现有的 text-to-music 模型来说是具有挑战性的，因为它们缺乏细粒度的 temporal control。我们介绍…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 色彩过于鲜艳而不真实？生成式颜色保真度的基准测试与校准

近期在文本到图像（T2I）生成方面的进展显著提升了视觉质量，但要生成在视觉上与真实世界照片相媲美的图像仍然具有挑战性。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 从数据统计到特征几何：相关性如何塑造 Superposition

机制可解释性的核心思想是，神经网络所表示的特征数量超过其维度，通过 superposition 将它们排列在一起，以…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] ReCoSplat：使用渲染对比的自回归前馈高斯点绘

在线新视角合成仍然具有挑战性，需要从顺序的、通常未标定的观测中进行稳健的场景重建。我们提出了 ReCoSplat，一个 au...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

利用全切片难度的多实例学习提升前列腺癌分级

Multiple Instance Learning (MIL) 已被广泛应用于组织病理学，以对 Whole Slide Images (WSIs) 进行切片级诊断的分类。虽然 ground tr...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 无图像，无问题：端到端多任务心脏分析基于欠采样k空间

传统的临床CMR工作流程依赖于顺序的“重建-再分析”范式，迫使出现一个病态的中间步骤，导致可避免的…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 使用 Target-Only Margin Disparity Discrepancy 的无监督领域适应

在介入放射学中，Cone‑Beam Computed Tomography (CBCT) 是一种有用的成像方式，可在微创手术期间为从业者提供引导。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 细粒度动作检索：基于关节角度运动图像和 Token‑Patch 后期交互

文本-动作检索旨在学习自然语言描述与 3D 人体动作骨骼序列之间的语义对齐潜在空间，从而实现……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 关于 Chamfer Distance 在 3D 形状优化中的结构失效

Chamfer distance 是点云重建、补全和生成的标准训练损失，但直接优化它可能会产生更差的 Chamfer …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像，逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] HiAR：通过层次去噪实现高效自回归长视频生成

自回归（AR）扩散提供了一种有前景的框架，用于生成理论上无限长度的视频。然而，一个主要挑战是保持…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 一起交谈：从音频合成同位3D对话

我们解决了一个具有挑战性的任务：从混合音频流中为两个交互的、同处的参与者生成完整的3D面部动画。虽然现有的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] ImprovedGS+: 高性能 C++/CUDA 重新实现策略用于 3D Gaussian Splatting

最近在3D Gaussian Splatting（3DGS）方面的进展已经将重点转向在重建保真度与计算效率之间取得平衡。在本工作中，...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] CAST：建模视觉状态转变以实现一致的视频检索

随着视频内容创作向长篇叙事转变，将短片组合成连贯的故事线变得日益重要。然而，现有的……

#video retrieval #computer vision #vision-language models #state transitions
1个月前 · ai · - · -

[Paper] 检索增强的 Gaussian Avatars：提升表情泛化

无模板的可动画头部化身可以通过直接从被摄对象的捕获中学习表情依赖的面部变形，实现高视觉保真度，av...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] UNBOX：使用自然语言揭示黑箱视觉模型

确保开放世界视觉识别的可信度需要模型具备可解释性、公平性，并且对分布转移具有鲁棒性。然而，现代视觉系统...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] StreamReady：学习在长流式视频中何时以及回答什么

流媒体视频理解通常涉及时间敏感的场景，模型需要精确回答支持的视觉证据出现的时间：回答…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

提升 AI 模型解释其预测的能力

高风险可解释性在医学诊断中的应用在高风险环境如医学诊断中，用户通常想了解是什么导致计算机视觉模型…

#explainable AI #concept bottleneck modeling #model interpretability #computer vision #medical imaging #deep learning
1个月前 · ai · - · -

[Paper] 多模态大语言模型作为图像分类器

多模态大型语言模型（MLLM）的分类性能在很大程度上取决于评估协议和真实标签的质量。比较MLLM的研究……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Omni-Diffusion：统一的多模态理解与生成，采用 Masked Discrete Diffusion

虽然近期的多模态大语言模型（MLLMs）取得了令人印象深刻的进展，但它们主要采用传统的自回归架构作为其……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SCOPE：场景上下文化增量少样本3D分割

增量少样本（IFS）分割旨在通过仅少量标注随时间学习新类别。虽然在 2D 中已被广泛研究，但仍未得到充分利用……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] SUREON：用于外科推理的基准与视觉语言模型

外科医生不仅仅是看——他们在解读。当专家观察手术现场时，他们不仅了解正在使用的器械是什么，还明白为什么选择它……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Penguin-VL：探索基于LLM的视觉编码器在VLM中的效率极限

Vision Language Model (VLM) 的开发在很大程度上依赖于扩大模型规模，这阻碍了在计算受限的移动和边缘设备上的部署……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 多源多模态数据冗余的建模与测量用于自动驾驶

下一代自动驾驶车辆（AVs）依赖大量的多源和多模态（M^2）数据来支持实时决策。实际上，数据...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SurgFormer：可扩展的器官变形学习，支持切除并实现实时推理

我们介绍了SurgFormer，一种用于体积网格上数据驱动软组织仿真的多分辨率门控Transformer。高保真生物力学求解器…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] NEGATE：受约束的语义引导用于文本到视频扩散中的语言否定

否定是一个基本的语言运算符，但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中，我们提出了一个形式化的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[论文] 基于Transformer的Inpainting用于稀疏多摄像头设置的实时3D流媒体

高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…

#research #paper #ai #computer-vision

Newer posts

Older posts