[论文] 用于肖像视频编辑的 In-Context Sync-LoRA
编辑肖像视频是一项具有挑战性的任务,需要在广泛的修改范围内实现灵活且精确的控制,例如外观变化、表情……
编辑肖像视频是一项具有挑战性的任务,需要在广泛的修改范围内实现灵活且精确的控制,例如外观变化、表情……
从 LiDAR 序列建模动态 3D 环境是构建可靠的 4D 世界以用于 autonomous driving 和 embodied AI 的核心。现有的生成框架……
幻觉仍然是大型语言模型(LLMs)的关键挑战,阻碍了可靠的多模态LLM(MLLM)发展。现有的解决方案……
虽然 Multimodal Large Language Models (MLLMs) 展现出卓越的能力,但它们的安全对齐容易受到 jailbreak 攻击。现有的攻击方法...
在鸟瞰视图(BEV)表示中融合 LiDAR 和 camera 信息已证明其在 3D object detection 中的有效性。然而,因为...
在低光环境下,如夜间驾驶,图像退化严重挑战 in-vehicle camera 的安全性。由于现有的 enhancement algorithms 通常……
我们提出 Layout Anything,一个基于 transformer 的室内布局估计框架,它将 OneFormer 的通用分割架构适配到几何…
视频生成的下一个前沿是开发能够进行 zero-shot 推理的模型,其中对 real-world scientific laws 的理解至关重要,以实现……
新视角合成(NVS)在计算机视觉和图形学中至关重要,广泛应用于增强现实(AR)、虚拟现实(VR)和自动驾驶。虽然3D Gaussian Splatting(3D...)
可穿戴传感器,例如 smartwatches,已在医疗、体育和教育等领域日益普及,实现了持续监测……
封面图片:如何在 OCR 运行前修复被裁剪的文档 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...
生成模型最近在视觉运动策略学习方面展现出显著的前景,使得在多样化的具身 AI 任务中实现灵活且富有表现力的控制。
Self-driving laboratories 为减少生物科学中劳动密集、耗时且常常难以重复的工作流程提供了一条有前景的路径。
今天,人们可以轻松记录难忘的时刻,范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……
Video generators 正在日益被评估为潜在的 world models,这要求它们对 physical laws 进行编码和理解。我们调查它们的…
相机和物体运动是视频叙事的核心。然而,精确编辑这些捕获的运动仍然是一个重大挑战,尤其是在...
统一多模态模型(UMMs)旨在在单一框架内共同执行多模态理解和生成。我们提出了 TUNA,一种原生的 UMM,...
MeanFlow(MF)最近被确立为一种一步生成建模的框架。然而,它的“fastforward”特性在…
360度全向理解领域因推动空间智能而受到日益关注。然而,缺乏大规模…
多视角摄像系统能够对复杂的真实世界场景进行丰富的观测,在多视角设置中理解动态对象已成为核心……
我们引入了 Audio-Visual Affordance Grounding (AV-AG),这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……
自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而,这类策略在协变量偏移时会受到影响。
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
处理缺乏固有时间动态的静态图像仍然是脉冲神经网络(SNN)的一项根本性挑战。在直接训练的SNN中,静态...
对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。
近期的多模态大语言模型(MLLMs)在视频理解方面取得了进展,但大多数仍然是“思考视频”,即一旦视频被编码,推理……
最近,多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……
大型视觉语言模型(VLMs)通过广泛的预训练,有效弥合模态差距,获取与视觉表示相匹配的复杂特征……
Deep learning 方法在 object detection 方面已经实现了对图像中特定目标类别的可靠检测。然而,扩展模型的检测能力…
Inverse heat problems 指的是在已观测或已知的热扩散行为下,对材料热物理属性进行估计。Inverse heat problems 已经…
近期在 generative world models 方面的进展,使得在创建 open-ended game environments 上取得了显著进展,已从 static scene synthesis 向……发展。
最近在 text-to-video (T2V) 和 image-to-video (I2V) 模型方面的进展,使得从简单的文本创建视觉上引人注目且动态的视频成为可能……
水下目标跟踪具有挑战性,因为波长相关的衰减和散射会严重扭曲不同深度和水体条件下的外观……
在单一 tokenizer 中统一多模态的理解、生成和重建表示仍然是构建统一模型的关键挑战。此前...
现代的大型语言模型变得多模态,能够分析文本和图像等各种数据格式。虽然微调在适应这些多模态……
大规模视觉语言模型(LVLMs)在需要视觉信息的任务中展现出先进的能力,包括目标检测。这些能力……
虽然现代扩散模型在生成高质量且多样化的图像方面表现出色,但它们仍然在高保真组合和多模态控制方面存在困难,...
学习在新平台和新场景中仅通过少量示例来学习新的机器人任务仍然具有挑战性。虽然其他形态——人类…(后文保持不变)
Vision-Language Models (VLMs) 仍然缺乏空间智能方面的鲁棒性,在空间理解和推理任务上表现不佳。我们...
是否可以仅凭相机轨迹——它在空间中划出的路径——而不观看像素来感知视频的内容?本文首次系统地探讨了这一问题……
Gliomas 是一种脑肿瘤类型,具有高死亡率,这意味着早期且准确的诊断对于肿瘤的治疗干预至关重要……
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
动作质量评估(AQA)从动作视频中预测细粒度的执行分数,已广泛应用于体育、康复和技能评估……
更深的视觉Transformer往往表现不如较浅的模型,这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析,...
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
尽管图卷积网络(GCNs)在基于骨架的动作识别中取得了显著成功,但它们的性能往往依赖于大量的实验室…