[Paper] AVGen-Bench:面向任务的多粒度文本到音频视频生成评估基准
Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口,但其评估仍然碎片化。现有基准在很大程度上…
Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口,但其评估仍然碎片化。现有基准在很大程度上…
Group Relative Policy Optimization (GRPO) 已成为推动最近在多模态大型语言模型领域进展的事实上的强化学习 (RL) 目标。
我们引入 RewardFlow,这是一种无反演框架,在推理时通过多奖励 Langevin 动力学引导预训练的 diffusion 和 flow‑matching 模型。
Spatiotemporal neural dynamics 和 oscillatory synchronization 被广泛认为在 biological information processing 中起重要作用,并被假设支持……
Large Chunk Test-Time Training (LaCT) 已在长上下文 3D 重建中展示了强大的性能,但其完全可塑的推理时更新仍然脆弱……
生成动作控制视频——在用户指定的动作驱动下,实现自由选择视点的物理上合理的场景动态——需要两种能力……
我们提出 TC‑AE,一种基于 ViT 的深度压缩 autoencoders 架构。现有方法通常通过增加 latent representations 的通道数来……
3D Gaussian Splatting(3DGS)已经彻底改变了快速新视角合成,但其基于不透明度的公式使得表面提取在根本上变得困难。U...
扩大机器人学习的规模可能需要包含丰富且长期交互的人类数据,且这些数据来源于真实环境。现有的收集此类数据的方法……
多实例学习(MIL)是计算病理学中用于千兆像素全切片图像(WSI)分类的主导框架。然而,当前的MIL……
大型视觉语言模型可能在图像描述中产生对象幻觉,这凸显了有效检测和缓解策略的需求。P...
字符错误率(CER)是评估光学字符识别(OCR)质量的关键指标。然而,该指标假设文本已经…
MLLMs 已成功应用于多模态嵌入任务,但它们的生成推理能力仍未得到充分利用。直接将 cha...
本文介绍了多项式混合器(Polynomial Mixer,PoM),这是一种具有线性复杂度的新型 token mixing 机制,可直接替代 self-attention....
本研究提出了一种轻量级多模态适配框架,以弥合 RGB 预训练 VLMs 与热红外影像之间的表征差距,并……
可扩展的户外驾驶场景生成需要在多个视角下保持一致并能够扩展到大范围的 3D 表示。现有的 s...
Graphics Program Synthesis 对于解释和编辑视觉数据至关重要,有效促进了将静态视觉内容逆向工程为可编辑的形式……
Neural network pruning 可以被表述为一个 combinatorial optimization 问题,但大多数现有方法依赖于忽视复杂 int... 的 greedy heuristics。
我们提出了 Vanast,一个统一的框架,能够直接从单张人物图像、服装图像和 pose 生成 garment‑transferred 人体动画视频。
场景级点云理解仍然具有挑战性,因为几何形状多样,类别分布不平衡,空间布局高度多变。Exist...
局部特征匹配长期以来一直是 3D 视觉系统(如 Structure-from-Motion (SfM))的基础组成部分,然而其进展相较于快速 …
大多数视觉语言模型(VLM)使用大型语言模型(LLM)作为解码器,其中响应标记通过自回归(autoregressive)方式顺序生成。
预训练的扩散模型推动了全能修复(All-in-One Restoration,AiOR)的显著进展,提供了更好的感知质量和泛化能力。Ho...
在大型语言模型(LLMs)中进行扩展推理会导致严重的 KV 缓存内存瓶颈。领先的 KV 缓存压缩方法使用…来估计 KV 重要性。
要构建一个能够跨图表、科学、空间理解和开放式任务的 visual reasoner,需要什么条件?最强大的 vision-language model……
图像空间编辑执行几何驱动的变换,允许对对象布局和相机视角进行精确控制。当前模型不足……
在科学计算和现代机器学习(ML)工作负载中,依赖的通用矩阵乘法(GEMM)序列通常占据执行时间的主要部分……
请提供需要翻译的文本内容。
Spiking Neural Networks (SNNs) 为实现能效高的边缘智能提供了有前景的解决方案;然而,它们的硬件部署受到内存开销的限制。
近期的视觉语言模型(VLMs)通常依赖于使用对比图像‑文本目标进行训练的单一视觉编码器,例如 CLIP‑style 预训练。W...
大多数近期的生成式图像超分辨率(SR)方法依赖于对在网络规模文本‑图像数据上预训练的大型文本到图像(T2I)扩散模型进行适配……
非增强胸部CT为常规肺部筛查和机会性肺外筛查提供了丰富的机会。虽然 Multi-Task Learning (MTL) 可以……
遥感分割在实际部署中本质上是持续的:新的语义类别不断出现,获取条件随季节、城市等而变化……
三维医学影像数据和计算机辅助决策,特别是使用 deep learning,正变得在医学领域日益重要。
本文回顾了 NTIRE 2026 年关于高效单图像超分辨率的挑战,重点关注所提出的解决方案和结果。该挑战的目标是……
通过升级视觉编码器来扩展视觉‑语言‑动作(VLA)模型,预计能够提升下游操作性能——正如它在视觉‑语言模型中所表现的那样……
机器人操作需要理解环境的3D空间结构及其时间演化,但大多数现有策略忽视了其中之一……
近期强化学习(RL)在大型推理模型中的成功,激发了人们对在后训练的多模态大型语言模型中采用 RL 的日益增长的兴趣。
在无人机(UAV)图像中的目标检测仍然是一项极具挑战性的任务,主要是由于背景噪声的复杂性和不平衡……
我们引入了一种 wavelength-multiplexed、massively parallel 的 diffractive information storage 平台,由结构优化的 dielectric surfaces 组成……
我们提出 EventHub,一个用于训练深度事件立体网络的创新框架,无需来自昂贵主动传感器的真实标注,而是依赖于 s...
将 generative inverse 和 forward rendering 扩展到真实世界场景时,受限于现有 synthetic data 的逼真度和 temporal coherence 的不足,成为瓶颈。
我们提出了 ModMap,这是一种原生多视角和多模态的 3D 异常检测与分割框架。不同于现有的将视角独立处理的方法……
预训练的视觉Transformer(ViTs),例如 DINOv2 和 MAE,提供通用的图像特征,可用于各种下游任务,例如检索…
高质量的3D avatar modeling 面临着 fidelity 与 generalization 之间的关键权衡。一方面,multi-view studio data 能够实现 high-fidelity …
无需训练的 Vision-Language Navigation (VLN) 代理由 foundation models 驱动,能够遵循指令并探索 3D 环境。然而,现有的 approa...
近期的流媒体视频理解方法日益依赖复杂的记忆机制来处理长视频流。我们用一种简单的…来挑战这一趋势。
现有的视频对象移除方法在对对象后面的内容进行inpainting以及纠正外观层面的伪影(如阴影和反射)方面表现出色。