[Paper] 生成式重新聚焦:灵活的散焦控制来自单张图像
Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……
Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……
我们提出 WorldCanvas,一个用于可提示世界事件的框架,通过结合文本、轨迹和参考图像,实现丰富的、用户导向的模拟。
受生成式预训练在自然语言领域成功的启发,我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...
传统的多模态大语言模型(MLLM)评估方法缺乏可解释性,且往往不足以充分揭示跨…的显著能力差距。
从视觉输入感知和重建 3D 场景几何对于自动驾驶至关重要。然而,目前仍缺乏针对驾驶任务的稠密几何。
虽然 image editing 发展迅速,但 video editing 仍然较少被探索,面临 consistency、control 和 generalization 的挑战。我们研究了设计...
最近的研究表明,多模态大型语言模型(MLLMs)受益于与视觉工具交互的多模态交叉链式思考(CoT)。
立体显示技术的快速增长,包括 VR 头盔和 3D 影院,导致对高质量立体视频内容的需求不断增加。然而,pr...
在本工作中,我们提出了一种全景度量深度基础模型,能够在不同场景距离上实现泛化。我们探索了一种 data‑in‑the‑loop 范式……
近期在多模态模型方面的进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的...
先前关于3D 手部轨迹预测的工作受到数据集的限制,这些数据集将运动与语义监督解耦,并且模型在推理方面的关联较弱。
奖励模型(RMs)对于训练大型语言模型(LLMs)至关重要,但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。
视频大型语言模型(VLLMs)通过在互联网规模的数据上进行预训练,解锁了具备世界知识感知的视频理解,并已显示出前景……
将机器学习(Machine Learning, ML)应用于罕见疾病的诊断,如胶原VI相关营养不良(COL6‑RD),在根本上受到 s 的限制。
现有的视频生成模型由于视频信号的密集和高维特性,在保持长期的空间和时间一致性方面面临困难。为了……
在最基本的层面上,像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息,范围……
在最近的多模态研究中,diffusion paradigm 已经崭露头角,成为 autoregressive paradigm (AR) 的一种有前景的替代方案,因为它独特的解码……
我们提出了 Gaussian Pixel Codec Avatars(GPiCA),一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。
Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入,输出一个深层特征表示,...
Active Speaker Detection(ASD)旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……
自回归视频扩散模型在世界模拟方面具有潜力,但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...
包含人类偏好的图像压缩性能评估普遍发现,诸如 MSE 之类的朴素失真函数不足以……
AI驱动的视频生成技术的滥用已经引发了严重的社会担忧,凸显出对可靠的AI生成视频检测器的迫切需求……
当前用于机器人操作的 Vision-Language-Action Models (VLAs) 基于在大规模但相互独立的视觉-语言骨干网络上进行预训练。