[论文] 用于肖像视频编辑的 In-Context Sync-LoRA
编辑肖像视频是一项具有挑战性的任务,需要在广泛的修改范围内实现灵活且精确的控制,例如外观变化、表情……
编辑肖像视频是一项具有挑战性的任务,需要在广泛的修改范围内实现灵活且精确的控制,例如外观变化、表情……
从 LiDAR 序列建模动态 3D 环境是构建可靠的 4D 世界以用于 autonomous driving 和 embodied AI 的核心。现有的生成框架……
幻觉仍然是大型语言模型(LLMs)的关键挑战,阻碍了可靠的多模态LLM(MLLM)发展。现有的解决方案……
虽然 Multimodal Large Language Models (MLLMs) 展现出卓越的能力,但它们的安全对齐容易受到 jailbreak 攻击。现有的攻击方法...
在鸟瞰视图(BEV)表示中融合 LiDAR 和 camera 信息已证明其在 3D object detection 中的有效性。然而,因为...
在低光环境下,如夜间驾驶,图像退化严重挑战 in-vehicle camera 的安全性。由于现有的 enhancement algorithms 通常……
我们提出 Layout Anything,一个基于 transformer 的室内布局估计框架,它将 OneFormer 的通用分割架构适配到几何…
视频生成的下一个前沿是开发能够进行 zero-shot 推理的模型,其中对 real-world scientific laws 的理解至关重要,以实现……
新视角合成(NVS)在计算机视觉和图形学中至关重要,广泛应用于增强现实(AR)、虚拟现实(VR)和自动驾驶。虽然3D Gaussian Splatting(3D...)
可穿戴传感器,例如 smartwatches,已在医疗、体育和教育等领域日益普及,实现了持续监测……
封面图片:如何在 OCR 运行前修复被裁剪的文档 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...