[Paper] NEGATE:受约束的语义引导用于文本到视频扩散中的语言否定
否定是一个基本的语言运算符,但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中,我们提出了一个形式化的……
否定是一个基本的语言运算符,但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中,我们提出了一个形式化的……
高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…
虽然用于视频理解的数据集已经扩展到小时级时长,但它们通常由密集拼接的片段组成,这些片段与自然的、未剪辑的...
高光谱图像(HSI)有许多应用,范围从环境监测到国家安全,可用于材料检测和识别……
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏结构理解……
Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……
前馈Transformer模型推动了3D视觉的快速进展,但诸如VGGT和π³等最先进的方法的计算成本随……
传统的 vision-language models 在对比细粒度分类推理方面表现不佳,尤其是在区分外观相似的物种时……
病理报告生成仍然是一个相对未被充分探索的下游任务,主要是由于其 gigapixel 规模和复杂的形态异质性。
大规模视觉语言基础模型(VLFMs),例如 CLIP,现已支撑广泛的计算机视觉研究和应用。VLFMs 通常是 ada...
构建计算机辅助设计(CAD)模型工作量大,但对工程和制造至关重要。近期在大型语言模型(LL...)取得了重要进展。
我们梦想着一个未来,所有领域的 point clouds 能够汇聚在一起,塑造一个惠及所有领域的单一模型。为实现这一目标,我们提出了 Utonia,...
具身对话代理(Embodied Conversational Agents,ECAs)旨在通过语音、手势和面部表情来模拟人类面对面的互动。当前的大型语言模型……
许多关键的操作任务——例如食品准备、外科手术和工艺制作——对自主机器人仍然难以解决。这些任务的特征是…
实现自主且多功能的 whole-body loco-manipulation 仍然是使 humanoids 实际有用的核心障碍。然而,现有的方法仍然不足……
进行交互并从经验中学习的能力是机器人学的核心挑战,提供了一种可扩展的替代方案,以取代劳动密集型的人类 de...
Feedforward geometric foundation models 在短窗口重建方面表现强劲,但将其扩展到分钟级视频时受到 quadratic attention 的瓶颈限制。
统一的多模态模型最近展示了强大的生成能力,但生成何时以及是否提升了理解仍不清楚。Exi...
Omni-modal 大语言模型(omni LLMs)最近在视听理解任务上取得了强劲的表现,但它们仍然高度易受…
Human-product images(展示人类与产品融合的图像)在广告、电子商务和数字营销中发挥着至关重要的作用。关键是……
我们提出了 Sketch2Colab,它将 storyboard 风格的 2D 草图转换为连贯、具备对象感知的 3D 多人物动作,并对 agents、关节等实现细粒度控制。
湄公河三角洲的非物质文化遗产(ICH)图像分类因标注数据有限、视觉相似度高等因素而面临独特的挑战……
基于指令的视频编辑取得了快速进展,但现有方法常常在精确的视觉控制方面遇到困难,因为自然语言本质上是……
Scaling laws 假设在更多数据上训练的更大模型始终优于较小的模型——这一假设驱动了计算机视觉中的模型选择,但……
多模态检索是将跨异构模态的查询信息聚合,以检索所需目标的任务。最先进的多模态……
从未标定的图像进行密集的4D重建仍然是一个关键挑战,现有方法依赖于缓慢的test-time优化或碎片化的、task-specific……
将 video generation 从秒级扩展到分钟级面临一个关键瓶颈:虽然 short‑video 数据丰富且 high‑fidelity,但 coherent long‑form 数据却是……
人类通过关键转变来感知动作,这些转变在多个抽象层次上结构化动作,而机器则依赖视觉特征,往往……
基于扩散的真实世界图像超分辨率(Real-ISR)在感知质量上表现出色,但由于迭代采样导致的高计算成本而受到限制。
现代显微镜常规产生千兆像素图像,包含跨多个空间尺度的结构,从细胞形态的细微特征到更广阔的组织或……
Diffusion models 实现了 state-of-the-art 视频生成质量,但由于需要大量的 sequential denoising steps,inference 仍然非常昂贵……
尽管具备强大能力,Multimodal Large Language Models(MLLMs)仍可能产生看似合理却错误的输出,阻碍可靠部署。准确的……
我们介绍了 MediX‑R1,一个面向医学多模态大语言模型(MLLMs)的开放式强化学习(RL)框架,能够实现临床基础的……
我们提出了一种可扩展的 3D reconstruction 模型,解决了离线 feed‑forward 方法的一个关键限制:它们的计算和内存需求……
我们将 occlusion reasoning 视为 3D layout‑conditioned generation 的一个基础但被忽视的方面。它对于合成部分遮挡的……
受生物启发的事件相机因其异步和低延迟特性最近吸引了大量研究。这些特性提供了高 dy...
在视觉语言模型(VLMs)的推理能力缺乏一直是研究讨论的前沿。我们认为这种行为源于……
Open-vocabulary segmentation (OVS) 将视觉语言模型 (VLMs) 的零样本识别能力扩展到像素级预测,使得能够对…
Omni-modal reasoning 对于智能系统理解并从多样化数据源中进行推断是必不可少的。虽然现有的 omni-modal large language …
医学诊断需要有效地综合视觉表现和临床元数据。然而,现有方法往往将元数据视为孤立的任务……
近年来,大规模数据集阻碍了高效的模型训练,同时也包含冗余概念。Dataset distillation 旨在合成紧凑的数据集……
从非结构化点云数据中对动态3D对象进行时间一致的表面重建仍然具有挑战性,尤其是对于非常长的序列。E...
Egocentric manipulation videos 在交互过程中由于严重遮挡以及物体频繁进入和离开摄像头视野而极具挑战性……
现有的 action‑conditioned video generation models(video world models)局限于单代理视角,未能捕捉多代理交互……
生成式人工智能(GenAI)的进步促使开发出多种保护策略,以防止图像的未经授权使用。这些方法依赖于...
近年来,出现了一种标准的计算病理工作流程,将 whole slide images 裁剪成 tiles,这些 tiles 使用一个 foun...
对象幻觉是大型视觉语言模型(LVLMs)的一个关键问题,模型的输出可能包含输入图像中不存在的对象。一个自然…
医学视觉语言预训练越来越依赖医学报告作为大规模监督信号;然而,原始报告往往表现出显著的 st...