[Paper] DUO-VSR: 双流蒸馏用于一步视频超分辨率
基于扩散的 video super-resolution(VSR)最近实现了显著的保真度,但仍然受到高昂采样成本的限制。虽然 distribution mat…
基于扩散的 video super-resolution(VSR)最近实现了显著的保真度,但仍然受到高昂采样成本的限制。虽然 distribution mat…
近期通过强化学习 (RL) 的文本到图像 (T2I) 生成的最新进展受益于评估语义对齐和视觉质量的奖励模型。
人类视觉处理 vs. 机器视觉:作为人类,我们可以瞬间在图像中识别出一只猫、一只狗和一位女士。我们的脑部结合了 attention、memory、以及……
视频生成模型展现出新兴的推理行为。确保生成的事件在帧之间保持因果一致性对于可靠的……
现有的篡改检测基准在很大程度上依赖于 object masks,这与真实的 edit signal 严重不匹配:许多位于 mask 内的像素实际上未被修改……
近期在 diffusion models 方面的突破显著提升了 text-to-video generation,使得个性化内容创作能够实现细粒度的控制……
许多 segmentation 任务,例如 medical image segmentation 或 future state prediction,本质上是模糊的,这意味着多个预测同样……
在不确定的环境中预测未来状态,例如野火蔓延、医学诊断或自动驾驶,需要能够考虑多…
视频驱动的人体反应生成旨在合成直接响应观察到的视频序列的3D人体动作,这对于构建人类——
在本工作中,我们提出了 Image-to-Image Rectified Flow Reformulation (I2I‑RFR),一种实用的插件式重构方法,将标准的 I2I 回归网络重新表述为……
Video agentic models 已经推动了具有挑战性的视频‑语言任务的发展。然而,大多数 agentic 方法仍然在 densely sampled 的基础上严重依赖 greedy parsing ……
Token pruning 对提升视觉语言模型(VLMs)的计算效率至关重要,尤其是在时间冗余显著的基于视频的任务中。
多模态大语言模型(MLLMs)展现出强大的视觉-语言推理能力,但仍局限于其原生模态,无法直接处理 st...
多模态大语言模型(MLLMs)在连接视觉和语言方面取得了令人印象深刻的进展,但它们仍然在空间理解方面存在困难……
在本工作中,我们提出了 EchoGen,一个用于 layout-to-image generation 和 image grounding 的统一框架,能够生成具有精确布局的图像和……
我们提出了一种 training-free 框架,用于在 test time 对 text‑conditioned generative models 进行连续且可控的图像编辑。与之前的...
Tokenization 是在各种模态的生成建模中的基础技术。尤其是,它在自回归(AR)模型中发挥关键作用,……
在3D环境中合成可控的6-DOF对象操作轨迹对于使机器人能够与复杂场景交互至关重要,但仍然……
Controlled video generation 在近几年取得了显著的进步。然而,编辑操作和动态事件,或插入应产生影响的内容……
近期的多模态大型语言模型(MLLMs)在三维场景中的空间推理方面表现出很高的潜力。然而,它们通常依赖于计算上……
将语言模型扩展到视频会带来两个挑战:表示方面,现有方法依赖于有损近似;以及长上下文方面,其中 capti...
最近在 video diffusion transformers 方面的进展使得交互式游戏世界模型成为可能,允许用户在扩展的…
Monocular 3D scene reconstruction 最近取得了显著进展。得益于现代 neural architectures 和大规模数据,近期方法实现了……
我们介绍了 SegviGen,一个将原生 3D 生成模型重新用于 3D 部件分割的框架。现有的流水线要么将强大的 2D 先验提升到 3D……
视频超分辨率(VSR)的目标是从低分辨率(LR)估计中恢复高质量的视频帧,但大多数现有的VSR方法表现得像黑盒……
参数化人体模型是人体重建、动画和仿真的基础,但它们仍然相互不兼容:SMPL、SMPL-X、MHR、Anny…
从未标定的单目视频进行流式重建仍然具有挑战性,因为它既需要高精度的姿态估计,又需要计算效率高的……
Vision transformers(ViTs)——尤其是像 DINOv2 这样的特征基础模型——学习到丰富的表征,可用于许多下游任务。然而,architectu...
Label noise(指错误标签)在许多真实世界的数据集中存在,已知会严重限制深度学习模型的泛化能力。
沉浸式扩展现实(XR)应用引入了对延迟高度敏感的工作负载,这些工作负载必须在满足严格的实时响应要求的同时,运行在能源……
Vision-Language-Action (VLA) 模型在静态操作方面表现出色,但在具有移动目标的动态环境中表现不佳。这一性能差距主要源于 …
Vision-Language-Action(VLA)模型最近作为一种有前景的机器人操作范式出现,其中可靠的动作预测关键依赖于……
生成用于视觉文本渲染的准确 glyphs 是必不可少且充满挑战的。现有方法通常通过在大量数据上进行训练来提升文本渲染效果。
最近的视频扩散模型在视觉质量方面取得了显著进步,但精确、细粒度的控制仍然是限制其实用性的关键瓶颈。
我们提出 HSImul3R,一个统一的框架,用于从随意捕获(包括稀疏视角)中实现可用于仿真的 3D 重建人‑场景交互(HSI)。
SAM 3D Body(3DB)在单目 3D 人体网格恢复方面实现了最先进的精度,但其每张图像数秒的推理延迟阻碍了实时……
如果一个 world simulation model 能够渲染的不是想象中的环境,而是实际存在的城市会怎样?之前的 generative world models 在视觉上合成了 pla...
一名女子在华盛顿特区白宫前的拉斐特公园玩 Pokémon Go 时举起手机,时间是2016年7月12日。
概述 Iris 是一个 real‑time spatial awareness agent,通过你的 camera 进行观察并与你对话。将你的 device 指向任何东西——一个房间、一条街道、一个工作空间……
摘要 人类运动员展示出多才多艺且高度动态的网球技术,能够成功进行高速网球的竞争性回合。然而...
对火星滑坡的自动分割,尤其是在诸如瓦列斯·马里内里斯等构造活跃地区,对行星地质学和危害评估非常重要。
在本文中,我们分析并提出了该方法的 Python 实现——“Pith Estimation on Rough Log End images using Local Fourier Spectrum Analysis”,b...
低场磁共振成像(MRI)为资源有限的环境提供了一种成本效益高的医学成像替代方案。然而,它的广泛采用...
低场磁共振成像(MRI)提供了经济实惠的诊断成像途径,但面临诸如采集时间延长和图像质量降低等挑战。
视觉语言模型(VLMs)在图像推理方面的能力日益增强,但稳健的视觉推理通常需要在 t 中重新定位中间步骤。
图像超分辨率(SR)旨在重建具有高感知质量和低失真的高分辨率图像,但在根本上受到……的限制。
最近在文本条件的人体动作生成方面的进展主要得益于在大规模人体动作数据上训练的 diffusion models。基于 th...
机器学习方法针对时空物理系统主要聚焦于 next-frame prediction,目标是学习一个准确的 emulator f...