[Paper] SA-IQA:用多维奖励重新定义空间美学的图像质量评估
近年来,针对 AI 生成图像(AIGI)的图像质量评估(IQA)发展迅速;然而,现有方法主要针对肖像和 ar...
近年来,针对 AI 生成图像(AIGI)的图像质量评估(IQA)发展迅速;然而,现有方法主要针对肖像和 ar...
是否曾经在手部交叉、被物体遮挡,甚至稍微超出视野时,仍然难以获得准确的动作捕捉?标准的计算机视觉系统……
Normalizing Flows (NFs) 学习数据与高斯分布之间的可逆映射。先前的工作通常存在两个限制。首先,它们添加……
我们引入了“single-life”学习范式,在该范式中,我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...
平面设计构成了现代视觉传达的基石,作为推广文化和商业活动的重要媒介。最近的进展已经…
我们引入 radiance meshes,这是一种使用通过 Delaunay tetrahedralization 生成的恒定密度 tetrahedral cells 来表示 radiance fields 的技术。
Vision Language Models (VLMs) 展示了强大的定性视觉理解能力,但在实现具身所需的度量精确空间推理方面仍然困难……
手语生成(Sign Language Production,SLP)是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面,……
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,并应用生成…
我们提出了 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。...
使用最先进模型生成高质量视觉内容正变得越来越容易。开源模型可以在笔记本电脑上运行,云服务将 tex...