[Paper] RadarGen:从摄像头生成汽车雷达点云
我们提出了 RadarGen,这是一种扩散模型,用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-
我们提出了 RadarGen,这是一种扩散模型,用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-
当前用于设计自解释模型(SEMs)的方法需要复杂的训练过程和特定的架构,这使得它们不切实际……
在评估 VLMs 时,一个关键挑战是测试模型在不依赖文本先验的情况下分析视觉内容的能力。最近的基准测试如 BLINK……
现代扩散模型(DMs)已经实现了最先进的图像生成。然而,将数据完全扩散至白噪声的根本设计选择……
植物疾病对全球粮食安全构成重大威胁,需要准确且可解释的疾病检测方法。本研究介绍了一种 i...
文本到图像(Text-to-image,T2I)扩散模型能够生成高质量的图像,但往往未能捕捉文本提示中指定的空间关系。这一限制可以……
我们推出 PathBench-MIL,一个用于组织病理学中多实例学习(MIL)的开源 AutoML 与基准测试框架。该系统实现了端到端的自动化。
Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……
我们提出 WorldCanvas,一个用于可提示世界事件的框架,通过结合文本、轨迹和参考图像,实现丰富的、用户导向的模拟。
受生成式预训练在自然语言领域成功的启发,我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...
传统的多模态大语言模型(MLLM)评估方法缺乏可解释性,且往往不足以充分揭示跨…的显著能力差距。
从视觉输入感知和重建 3D 场景几何对于自动驾驶至关重要。然而,目前仍缺乏针对驾驶任务的稠密几何。
虽然 image editing 发展迅速,但 video editing 仍然较少被探索,面临 consistency、control 和 generalization 的挑战。我们研究了设计...
最近的研究表明,多模态大型语言模型(MLLMs)受益于与视觉工具交互的多模态交叉链式思考(CoT)。
立体显示技术的快速增长,包括 VR 头盔和 3D 影院,导致对高质量立体视频内容的需求不断增加。然而,pr...
在本工作中,我们提出了一种全景度量深度基础模型,能够在不同场景距离上实现泛化。我们探索了一种 data‑in‑the‑loop 范式……
近期在多模态模型方面的进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的...
先前关于3D 手部轨迹预测的工作受到数据集的限制,这些数据集将运动与语义监督解耦,并且模型在推理方面的关联较弱。
奖励模型(RMs)对于训练大型语言模型(LLMs)至关重要,但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。
视频大型语言模型(VLLMs)通过在互联网规模的数据上进行预训练,解锁了具备世界知识感知的视频理解,并已显示出前景……
将机器学习(Machine Learning, ML)应用于罕见疾病的诊断,如胶原VI相关营养不良(COL6‑RD),在根本上受到 s 的限制。
现有的视频生成模型由于视频信号的密集和高维特性,在保持长期的空间和时间一致性方面面临困难。为了……
在最基本的层面上,像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息,范围……
在最近的多模态研究中,diffusion paradigm 已经崭露头角,成为 autoregressive paradigm (AR) 的一种有前景的替代方案,因为它独特的解码……
我们提出了 Gaussian Pixel Codec Avatars(GPiCA),一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。
Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入,输出一个深层特征表示,...
Active Speaker Detection(ASD)旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……
自回归视频扩散模型在世界模拟方面具有潜力,但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...
包含人类偏好的图像压缩性能评估普遍发现,诸如 MSE 之类的朴素失真函数不足以……
AI驱动的视频生成技术的滥用已经引发了严重的社会担忧,凸显出对可靠的AI生成视频检测器的迫切需求……
当前用于机器人操作的 Vision-Language-Action Models (VLAs) 基于在大规模但相互独立的视觉-语言骨干网络上进行预训练。
本文提出了一种训练数据增强流水线,将合成图像数据与神经风格迁移相结合,以解决其脆弱性。
与扩展 LLMs 的 context window 相关的计算和内存开销严重限制了它们的可扩展性。一个值得注意的解决方案是 vision-te…
工作记忆使大脑能够整合瞬时信息,以实现快速决策。人工网络通常通过 recurrent 或 par...
引言 数据标注是人工智能的基础过程,使机器能够从真实世界的数据中学习。它涉及添加意义……
AI 背景移除工具乍一看可能像魔法一样。你上传一张图片,点击一个按钮,背景就消失了。在这简单的交互背后……
使用 Metal 渲染摄像头视频,无需 AVCaptureVideoPreviewLayer。在本教程中,我们将直接在屏幕上渲染摄像头视频,使用…
流式视频生成的核心挑战是保持长上下文中的内容一致性,这对内存设计提出了很高的要求。Mo...
本论文并未提出新方法,而是为视频时间定位(VTG)建立了一个直接、渐进且必不可少的基线,……
非参数量化因其在参数上的高效性以及对大码本的可扩展性而受到广泛关注。本文中,我们提出了一种 uni...
我们介绍了 CRISP,这是一种从单目视频中恢复可模拟的人体运动和场景几何的方法。先前关于人‑场景联合重建的工作…
近年来,3D 生成建模的最新进展显著提升了生成的真实感,但该领域仍受到现有表示方式的限制,……
Video foundation models 生成视觉上逼真且时间上连贯的内容,但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …
我们提出 VASA-3D,一种音频驱动的单次拍摄 3D 头部化身生成器。本研究解决了两个主要挑战:捕捉细微的表情细节 p...
我们介绍 ART,Articulated Reconstruction Transformer —— 一个类别无关的前馈模型,能够仅凭 … 重建完整的 3D 铰接对象。
实现真正的自适应具身智能需要代理不仅通过模仿静态示范来学习,而是通过在环境中持续改进来不断提升。
视觉情感分析(VSA)是一项具有挑战性的任务,因为情感显著的图像种类繁多,并且获取足够的……
及时且准确的淋巴瘤诊断对于指导癌症治疗至关重要。标准诊断实践结合了苏木精-伊红(HE)染色的全…