[Paper] 观察快与慢:学习视频中的时间流动
我们如何判断一个视频是被加速还是减速的?我们如何生成不同速度的视频?虽然视频已经成为现代通信的核心……
我们如何判断一个视频是被加速还是减速的?我们如何生成不同速度的视频?虽然视频已经成为现代通信的核心……
理解人类活动及其周围环境通常依赖视觉感知,但摄像头在隐私、安全方面仍然带来持续的挑战,...
我们提出了 Vista4D,一个稳健且灵活的视频再拍摄框架,将输入视频和目标摄像机定位在 4D 点云中。具体而言,给定一个…
尽管大型视觉语言模型(LVLMs)的能力取得了令人印象深刻的进展,这些系统仍然容易出现幻觉,即输出是 n...
近年来,图像生成和生成图像检测都取得了显著进展。尽管它们发展迅速,却在很大程度上仍相互独立。
自监督学习(SSL)是航空影像表示学习的标准方法。现有方法强制在增强视图之间保持不变性……
我无法转换该文章,因为提供的内容是二进制 PDF 流,而不是可提取的文本。请提供文章的文本示例……
最近在视频生成模型方面的进展,使得能够在广泛的场景和对象类别中合成逼真的human‑object interaction视频。
联邦学习(FL)使得在不共享原始数据的情况下进行协作模型训练成为可能;然而,分布式客户端中噪声标签的存在可能会……
海上风电行业正快速扩张,增加了对独立的高时间分辨率基础设施部署监测的需求……
强化学习(RL)后训练已成为使生成模型与人类偏好保持一致的标准,然而大多数方法依赖于单一的标量……
大型视觉语言模型(LVLMs)在奥林匹克水平的推理任务上取得了显著进展。然而,当前的奥林匹克水平多模态…
从RGB图像重建3D Human-Object Interaction对于感知系统至关重要。然而,这仍然具有挑战性,因为它需要捕捉子…
我们提出 LLaDA2.0‑Uni,一个统一的离散扩散大型语言模型(dLLM),支持在原生集成的环境中进行多模态理解和生成。
从稀疏多视角视频重建动态3D场景是高度不适定的,常导致几何崩塌、轨迹漂移和漂浮伪影……
时空自相似(STSS),捕捉跨帧的视觉对应关系,为视频的时间动态提供了一种有效的表示方式……
近期在 image generation 和 editing 方面的进展为 virtual try-on 打开了新的机会。然而,现有方法仍难以满足复杂的真实——
我们解决生成 3D 一致、可导航且空间上有依据的环境的问题:对真实地点的模拟。现有的视频生成…
训练现代神经网络通常依赖于较大的学习率,在接近稳定性边缘的情况下进行,此时优化动态表现出振荡的……
条件医学图像生成在许多临床相关的成像任务中发挥着重要作用。然而,现有方法仍然面临一个根本性的挑战……
我们提出 VLA Foundry,一个统一 LLM、VLM 和 VLA 训练于单一代码库的开源框架。大多数开源 VLA 工作专注于 ac...
由于在有限的多视角数据下,难以同时建模人体外观、动作和相机视角,Human video generation 仍然具有挑战性。
Vision-Language-Action (VLA) 模型提供了一种有前景的自动驾驶范式,用于利用世界知识和推理能力,尤其是在长期…
从图像序列中对动态人脸进行精确的重建和跟踪具有挑战性,因为 non-rigid deformations、表情变化以及视点……
构建逼真、可动画的全身数字人仍然是计算机图形学和视觉领域长期存在的挑战。近期在可动画的 ava...
Story Visualization 旨在生成一系列图像,忠实地描绘文本叙事,保持角色身份、空间配置、...
尽管最近取得了进展,vision-language encoders 仍面临两个核心限制:(1) 语言与 dense vision features 之间的对齐较弱,这会导致……
Video world models 在模拟用户或代理的动作所导致的环境动态方面取得了显著成功。它们被建模为动作‑…
可控协作类人操作是具身智能的一个基础且具有挑战性的问题,因为数据极度稀缺,复杂性在……
主题驱动的文本到图像合成的快速进展,尤其是 DreamBooth,使得一个无需同意的深度伪造流水线成为可能:对手只需要…
Uniform Discrete Diffusion Model(UDM)最近作为一种有前景的离散生成建模范式出现;然而,它与强化学习的结合……
一个稳健的用于地球观测的多模态大语言模型(MLLM)应在真实的输入变化下保持一致的解释和推理。...
个性化图像美学评估(PIAA)旨在预测单个用户对图像的主观评分,这需要对用户特定的美学……
未回收的 e-waste 代表了巨大的经济损失。硬盘驱动器(HDD)构成了有价值的 e-waste 流,需要机器人拆解。Automa...
乳腺癌诊断需要快速且精确的工具,但传统的组织病理学方法在术中常常不足。Deep Ultraviole...
视觉语言模型(VLMs)实现了强大的跨模态性能,但最新证据表明,它们过度依赖文本描述,而对...利用不足。
我们介绍 LaviGen,一个将 3D 生成模型重新用于 3D 布局生成的框架。不同于之前从文本推断对象布局的方法……
UAV 视觉语言导航(VLN)要求代理从自我中心视角在复杂的 3D 环境中导航,同时遵循模糊的多步骤 i...
大气雾霾显著降低了野生动物影像的质量,阻碍了对保护至关重要的计算机视觉应用,如动物检测、跟踪、……
随着 AI-assisted video creation 越来越实用,instruction-guided video editing 已成为细化生成或捕获的 footage 的关键。
水下图像常因光在水中的吸收和散射而出现严重的退化,如颜色失真、对比度低以及细节模糊。
Vision Language models (VLMs) 已在广泛的基准测试中展示了强大的性能,但它们常常受到模态主导的影响,即在预测…
在 vision-language models (VLMs) 中的推理最近因其在各种下游任务中的广泛适用性而受到显著关注。然而,...
图像地理定位传统上通过基于检索的地点识别或基于几何的视觉定位流水线来解决。最近的进展……
Reinforcement learning 已经推动了 video reasoning 在 large multi-modal models 中的发展,但主流流水线要么依赖于 on-policy self-exploration,这会导致性能停滞……
Time-to-Collision (TTC) 预测是碰撞预防中的关键任务,需要精确的时间预测并理解局部和全局的…
传统的基于帧的相机能够捕获丰富的上下文信息,但在动态场景中受到时间分辨率有限和运动模糊的影响。Event camera...
本文聚焦于将 flow matching models 与人类偏好对齐。一个有前景的方法是通过直接反向传播 reward gradients 来进行 fine‑tuning …