[论文] 指出你的意思:Visually Grounded Instruction Policy
Vision-Language-Action (VLA) 模型将视觉和语言与具身控制对齐,但当仅依赖于 t 时,它们的对象指代能力仍然有限。
Vision-Language-Action (VLA) 模型将视觉和语言与具身控制对齐,但当仅依赖于 t 时,它们的对象指代能力仍然有限。
在生成模型中进行艺术风格迁移仍然是一个重大挑战,因为现有方法通常仅通过 model fine-tuning、additional a...
多模态大型语言模型(MLLMs)结合视觉和文本表示,以实现丰富的推理能力。然而,高计算成本……
Vocabulary-free fine-grained image recognition 旨在在没有固定的人为定义标签集的情况下,区分元类内部视觉上相似的类别。Exi...
深度神经网络经常利用捷径。这些是与训练数据中的输出标签相关联的虚假线索,但与任务语义无关。
误区:Computer Vision 只对图像有效,对视频无效。 现实:Computer Vision 能同时处理图像和视频,这要归功于技术的进步……
手写文本识别和光学字符识别解决方案在处理现代时代的数据时表现出色,但效率在 La... 时会下降。
引言 人员再识别(re-ID)是跨不同摄像头视角寻找同一人的任务。它在安防等领域具有重要应用……
概述:让计算机在没有标记数据的情况下识别模式——即无监督学习——由于对……的简单调整,已变得更加容易。
现代潜在扩散模型(LDM)通常在低层次的变分自编码器(VAE)潜在空间中运行,这些空间主要针对像素级的重建进行优化。
单目深度估计仍然具有挑战性,因为最近的基础模型,如 Depth Anything V2 (DA-V2),在处理与真实世界图像相差甚远的情况时表现不佳。
近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...
随着深度学习的提升,理解 AI 系统能够识别对象的模型变得越来越困难。因此,对手可能会……
理解和生成 multi-person interactions 是一个根本性的挑战,对 robotics 和 social computing 具有广泛的影响。虽然人类自然…
我们提出了 RadarGen,这是一种扩散模型,用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-
当前用于设计自解释模型(SEMs)的方法需要复杂的训练过程和特定的架构,这使得它们不切实际……
在评估 VLMs 时,一个关键挑战是测试模型在不依赖文本先验的情况下分析视觉内容的能力。最近的基准测试如 BLINK……
现代扩散模型(DMs)已经实现了最先进的图像生成。然而,将数据完全扩散至白噪声的根本设计选择……
植物疾病对全球粮食安全构成重大威胁,需要准确且可解释的疾病检测方法。本研究介绍了一种 i...
文本到图像(Text-to-image,T2I)扩散模型能够生成高质量的图像,但往往未能捕捉文本提示中指定的空间关系。这一限制可以……
我们推出 PathBench-MIL,一个用于组织病理学中多实例学习(MIL)的开源 AutoML 与基准测试框架。该系统实现了端到端的自动化。
Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……
我们提出 WorldCanvas,一个用于可提示世界事件的框架,通过结合文本、轨迹和参考图像,实现丰富的、用户导向的模拟。
受生成式预训练在自然语言领域成功的启发,我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...