[Paper] 更少高斯,更多纹理:4K 前馈纹理化 Splatting
现有的 feed-forward 3D Gaussian Splatting 方法预测 pixel-aligned primitives,导致随着分辨率的提升,primitive 数量呈二次增长。...
现有的 feed-forward 3D Gaussian Splatting 方法预测 pixel-aligned primitives,导致随着分辨率的提升,primitive 数量呈二次增长。...
Multi-shot video generation 对长篇叙事讲述至关重要,但当前的 bidirectional architectures 存在交互性受限和高延迟的问题。
Vision Foundation Models (VFMs) 已成为现代计算机视觉的基石,提供了跨广泛任务的鲁棒表示。虽然最近…
Reference-to-video (R2V) 生成是一种可控视频合成范式,它通过文本提示和参考图像共同约束生成过程。
Vision-language-action 模型已经重塑了自动驾驶,使语言能够融入决策过程。然而,大多数现有的流水线仅……
人类驾驶行为本质上是个人化的,它受长期习惯的塑造并受到短期意图的影响。个体在加速方式上存在差异。
对大位移光流的精确估计仍然是一个关键挑战。现有方法通常依赖于迭代的局部搜索或/以及领域特…
平面设计是一种创造性和创新性的过程,在电子商务和广告等应用中发挥着关键作用。然而,开发一个自动化…
评估个人的技能水平至关重要,因为它本质上会塑造他们的行为。然而,量化技能却具有挑战性,因为它是潜在的……
生成逼真的 human-object interaction (HOI) 动画仍然具有挑战性,因为它需要同时建模动态的人体动作和多样的物体……
Autoregressive video diffusion models 已经展示了显著的进展,但它们仍然受到难以处理的线性 KV‑cache 增长、时间重复性的瓶颈限制……
细粒度面部表情编辑长期受到内在语义重叠的限制。为了解决这个问题,我们构建了 Flex Facial Expression (FFE) 数据集……
Contrastive vision-language (V&L) 模型仍然是各种应用的热门选择。然而,出现了若干限制,最显著的是…
稳健的感知和推理需要跨感官模态的一致性。然而,当前的multimodal models往往违反这一原则,产生矛盾的……
Video world models 在模拟物理世界方面展现出巨大的潜力,然而现有的 memory mechanisms 主要将环境视为 static canvases……
背景:每年春季,river herring 种群会从马萨诸塞州沿海水域迁徙,开始它们沿河流和溪流向淡水的年度旅程。
Vision--Language--Action (VLA) 策略在将语言指令和视觉观察映射到机器人动作方面表现出强劲的进展,然而它们的可靠性……
我们介绍了 Latent‑WAM,一个高效的端到端自动驾驶框架,通过空间感知和动力学信息实现强大的轨迹规划。
心理物理实验仍然是感知图像质量评估(IQA)最可靠的方法,但其成本高且可扩展性有限,促使自动…
精确的可变形软组织 3D 重建对于外科机器人感知至关重要。然而,低纹理表面、镜面高光以及...
机器人操作通常需要记忆:遮挡和状态变化会导致决策时的观测在感知上出现别名,从而使动作选择变得非-Ma...
可伸缩矢量图形(SVG)是技术插图和数字设计的关键格式,提供精确的分辨率独立性和灵活的语义……
场景文字编辑旨在修改自然图像中的文本内容,同时保持视觉真实感和语义一致性。现有方法通常需要 t...
多模态说话人识别系统通常假设在训练和测试期间都能获得完整且同质的音视频模态……
视频的密集时序特性对自动分析构成了巨大的挑战。尽管使用了强大的 Vision-Language Models,现有方法仍然……
随着多模态大语言模型(MLLMs)的进步,自治移动 GUI 代理受到了越来越多的关注。然而,现有的方法……
引言 想象一下,一个能够浏览互联网、完成任务并像人类一样与网站互动的个人助理。Ai2 最近的发布…
依赖于 in-domain annotations 和精确的 sensor‑rig priors,现有的 3D occupancy prediction 方法在可扩展性和 out‑of‑domain 泛化方面都受到限制。
Vision Language Models (VLMs) 正在越来越多地用于医学报告生成和视觉问答等任务。然而,流畅的诊断文本却……
能够交错生成的统一模型已经成为一种有前景的范式,社区正日益趋向于使用自回归建模来……
在高质量数据上训练的光流模型在面对真实世界的失真(如模糊、噪声和压缩伪影)时,往往会出现严重的性能下降。
Dynamical systems theory and reinforcement learning 将世界的演化视为由动作驱动的潜在状态动力学,视觉观测提供部分 …
现有的提升大型视觉语言模型(LVLMs)效率的方法主要基于视觉 token reduction 的概念。这种方法...
扩散模型和流匹配模型已经解锁了前所未有的创意内容创作能力,例如交互式图像和流媒体视频生成……
Monocular novel-view synthesis 长期以来一直需要 multi-view image pairs 作为 supervision,这限制了 training data scale 和 diversity。我们认为这并非必要……
事件相机以微秒级分辨率捕捉每像素的亮度变化,提供在 RGB 帧之间丢失的连续运动信息。然而,现有的...
具备代理能力的多模态大语言模型(MLLMs)(例如 OpenAI o3 和 Gemini Agentic Vision)通过迭代的视觉……展现出卓越的推理能力。
Video-Action Models(VAMs)已成为具身智能的有前景框架,通过从原始视频流中学习隐式世界动态来生成 t...
近期 diffusion-based 模型在 image inpainting 中实现了 photorealism,但需要大量 sampling steps,限制了实际使用。Few-step text-to-image 模型的……
现有的多模态大语言模型(MLLMs)在 3D 空间推理方面存在困难,因为它们未能构建 3D 环境的结构化抽象……
Diffusion Transformers (DiTs) 为高保真视频世界模型提供动力,但由于顺序去噪和昂贵的时空计算,仍然计算成本高……
由于上下文窗口有限,长视频理解对多模态大语言模型(MLLMs)仍然具有挑战性,这需要识别稀疏的 q…
潜在扩散模型(LDMs)通过在学习到的潜在空间中操作,实现高保真合成。然而,训练最先进的 LDMs 需要复杂的 st...
我们提出 UniMotion,据我们所知,这是第一个能够同时理解和生成人体动作、自然语言和 RGB 图像的统一框架。
最近在潜在世界模型(例如 V-JEPA2)方面的进展显示出在从视频观测中预测未来世界状态的有希望的能力。然而,...
Vision-Language-Action (VLA) 模型将视觉观测和语言指令直接映射到机器人动作。虽然在简单任务上有效,标准 VL...
许多多模态任务,例如图像字幕生成和视觉问答,需要视觉语言模型(VLMs)将对象与其属性关联……
虽然最近在 generative latent spaces 方面的进展推动了 single-image generation 的显著进展,但用于 novel view synthesis 的最佳 latent space ...