· ai
[Paper] 使用衍射解码器的快照3D图像投影
3D图像显示对于下一代体积成像至关重要;然而,密集深度复用用于3D图像投影仍然具有挑战性,因为diff…
3D图像显示对于下一代体积成像至关重要;然而,密集深度复用用于3D图像投影仍然具有挑战性,因为diff…
我们提出了一种视觉-语言仿真模型(VLSM),它统一了视觉和文本理解,以从布局草图中合成可执行的FlexScript……
跨模态的深度表征本质上是交织在一起的。在本文中,我们系统地分析了各种语义和……的光谱特性。
生成逼真的 human-human 交互是一项具有挑战性的任务,它不仅需要高质量的单体身体和手部动作,还需要连贯的……
我们引入 Perception Encoder Audiovisual(PE-AV),一种用于音频和视频理解的新型编码器家族,采用缩放对比学习进行训练。构建于...
最近,Chain-of-Thought(CoT)的引入在很大程度上提升了统一模型的生成能力。然而,观察到当前的...
我们构建了首个系统来解决从单目 RGB 视频中重建场景内对象操作的问题。由于该问题本质上是病态的……
虽然多模态大语言模型(MLLMs)已经在语义任务上取得了令人印象深刻的表现,但它们的空间智能——对稳健和...
生成长距离、几何一致性的视频面临一个根本性的困境:虽然一致性要求在像素空间严格遵守3D geometry,……
背景:高分辨率 MRI 对诊断至关重要,但长时间的采集限制了临床使用。超分辨率(SR)可以在扫描后提升分辨率……
我们利用多模态大型语言模型(LLMs),从 9,562 张档案图像扫描中构建了一个包含 306,070 项德国专利(1875‑1918)的数据集,使用我们的 LLM‑b…
糖尿病视网膜病变(DR)是全球可预防失明的主要原因之一,需要准确的自动化诊断系统。虽然通用领域的视觉‑la…