[Paper] TokenLight:使用属性令牌的精确图像光照控制
本文提出了一种图像重新照明的方法,能够在照片中对多个光照属性进行精确且连续的控制。我们……
本文提出了一种图像重新照明的方法,能够在照片中对多个光照属性进行精确且连续的控制。我们……
人工智能生成内容(AIGC)工具的快速进展,使得可以按需为网页设计创建图像、视频和可视化内容。
高级自动驾驶需要能够对多模态未来不确定性进行建模且在闭环交互中保持鲁棒性的运动规划器。A...
许多 SLT 系统悄然假设,简短的手语片段可以直接映射到口语单词。这个假设会失效,因为手语者常常创造 mea...
视频生成已经快速发展,最近的方法能够产生越来越逼真的动画效果。然而,现有的基准——主要为……
高效的原语空间分配是3D Gaussian Splatting的基础,因为它直接决定了表示之间的协同作用……
3D policy learning 预计能够实现更优的泛化和跨形体转移,但进展受到训练不稳定和严重过拟合的阻碍。
理解情感是智能系统能够与人类互动的基本能力。视觉语言模型(VLM)已经取得了巨大的 p...
可靠的不确定性估计对医学图像分割至关重要,因为自动轮廓会用于下游量化和临床决策支持。
长视频理解对视觉语言模型(VLM)而言本质上具有挑战性,因为帧数庞大。每个视频帧通常……
Seedance 2.0 是一种全新的原生多模态音视频生成模型,于2026年2月初在中国正式发布。与其前代相比,Seed…
基于多模态大型语言模型(MLLM)的现有分割模型,例如 LISA,常常因其无法处理新出现或新兴实体而面临困难。
对三维场景的空间推理是具身智能的核心能力,但持续的模型改进仍受到成本的瓶颈限制。
流式 3D 重建旨在从视频流中恢复 3D 信息,如相机位姿和点云,这需要几何精度,t...
虽然音视频语言模型(AVLMs)在最近几年取得了显著进展,但它们的可靠性受到跨模态幻觉的瓶颈限制。
虽然端到端的 Vision-Language-Action(VLA)模型为机器人操作提供了一个有前景的范式,但在狭窄的控制数据上对其进行微调往往会导致性能妥协……
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
语义多目标跟踪(SMOT)将多目标跟踪扩展为具有语义输出,例如视频摘要、实例级别的字幕和交互标签……
Human-Object Interaction (HOI) 检测是一个长期存在的计算机视觉问题,旨在预测人类与物体之间的交互。当前…
最近在视频生成方面的进展使得3D场景创建出现了新范式:生成受摄像机控制的视频,以模拟场景漫游,然后提升……
大型语言模型(LLMs)和视觉语言模型(VLMs)越来越多地通过布局和场景图等中间结构生成室内场景。
虽然扩散模型在视觉生成领域占据主导地位,但它们在计算上效率低下,对所有扩散过程都采用统一的计算努力。
Direct Preference Optimization(DPO)的有效性取决于能够反映多模态任务中关键质量差异的偏好数据。存在……
城市地区因快速城市化和气候变化而日益容易受到热极端的影响。传统上,热极端的监测……
Computed tomography (CT) enterography 是评估炎症性肠病 (IBD) 的主要成像方式,但最佳的表征选择仍有待确定。
计算机使用代理(Computer Use Agents,CUAs)根本上依赖图形用户界面(graphical user interface,GUI)基础,将语言指令转换为可执行的屏幕操作,但……
光学字符识别(OCR)随着视觉语言模型的兴起而迅速发展,但评估仍然集中在少数几个……
多模态联邦学习实现了在医疗机构之间进行隐私保护的协作模型训练。然而,一个根本性的挑战出现了……
在 deep learning 优化中,平衡收敛速度、泛化能力和计算效率仍然是一个核心挑战。First-order gradient…
深度神经网络尽管具有很高的准确率,但往往表现出置信度校准不足,限制了它们在高风险应用中的可靠性。当前的…
在3D计算机视觉中,寻找图像之间的匹配关键点是一个核心问题。然而,现代匹配器在处理大幅平面旋转时表现不佳。A straightfo...
在本工作中,我们研究了人-物交互视频生成(Human-Object Interaction Video Generation,HOIVG),其目标是基于 t 合成高质量的人-物交互视频。
我们提出了 SyncFix,一个在基于扩散的重建场景细化过程中强制跨视图一致性的框架。SyncFix 将细化……
High dynamic range (HDR) 图像提供了对场景辐射的丰富且忠实的表示,但由于其不匹配……,对 generative models 仍然具有挑战性。
大型多模态模型(LMMs)在通用视觉-语言理解方面取得了显著进展,然而,它们在需要 p... 的任务上仍然受限。
厌倦了花费数小时手动测量照片、查找材料价格并计算报价吗?对于handyman业务来说,这类后台工作是一个主要的痛点……
图像分类听起来很容易,直到你记得计算机从不直接看到“对象”。它只看到像素数组。本文解释了这为何使得 k‑NN 成为一种…
Prompt learning 是一种参数高效的视觉语言模型方法,但其在标签噪声下的鲁棒性研究较少。视觉内容包含……
视觉语言模型(VLMs)仍然在视觉感知任务(如空间理解和视点识别)上表现困难。一个可能的促成因素是...
大型视觉语言模型(LVLMs)在多模态推理方面表现出色,但常常出现幻觉并以高度确定性给出错误答案,……
人体拟合,将诸如 SMPL 等参数化人体模型与穿衣人类的原始 3D 点云对齐,是下游任务的关键第一步。
自由形态骨骼紧贴表面,能够有效捕捉非刚性变形,但缺乏直观控制所需的运动学结构。
代理式多模态模型的出现使系统能够主动与外部环境交互。然而,当前的代理在…
Text-to-video diffusion models 已经实现了开放式视频合成,但在生成提示中指定的正确对象数量时常常遇到困难。
事件相机在头戴式设备的单目自我视角3D人体姿态估计中提供了多种优势,例如毫秒级时间分辨率,hig...
机器人操作可变形物体代表了具身学习中数据密集的范式,其中形状、接触和拓扑以相互共演的方式……
本文针对从长视频序列进行大规模3D场景重建的任务。近期的前馈重建模型已经展示出有希望的 r...
多模态混合专家(MoE)模型在视觉语言任务上取得了显著的性能。然而,我们发现了一种令人困惑的现象,称为 Seei…