computer-vision — Page 29

排序:

3个月前 · ai · - · -

[Paper] Stable Signer: 层次化手语生成模型

手语生成（Sign Language Production，SLP）是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面，……

#research #paper #ai #nlp #computer-vision
3个月前 · ai · - · -

[Paper] RELIC：交互式视频世界模型与长时程记忆

真正的交互式世界模型需要三个关键要素：real-time long-horizon streaming、一致的spatial memory，以及精确的user control。然而，...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 快速且高效的 Normalizing Flows 及图像生成模型的应用

本论文在两个主要领域提出了新颖的贡献：提升生成模型的效率，特别是 normalizing flows，以及应用 gener...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] Jina-VLM：小型多语言视觉语言模型

我们提出 Jina-VLM，这是一款拥有 2.4B 参数的视觉语言模型，在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

衡量关键：图像生成评估的客观指标

使用最先进模型生成高质量视觉内容正变得越来越容易。开源模型可以在笔记本电脑上运行，云服务将 tex...

#image generation #evaluation metrics #generative AI #computer vision #quality assessment #Pruna #P-image #AI model benchmarking
3个月前 · ai · - · -

[Paper] PSA：金字塔稀疏注意力用于高效视频理解与生成

注意力机制是基础模型的核心，但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 关于草图表示学习的时序性

草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] MagicQuillV2：精确且交互式的图像编辑与分层视觉提示

我们提出 MagicQuill V2，这是一种新颖的系统，引入了分层组合范式用于生成式图像编辑，弥合了语义……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] CAMEO：多视角扩散模型的对应注意力对齐

多视角扩散模型最近作为一种强大的新视角合成范式出现，然而支撑其视图一致性的底层机制仍未被完全阐明……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] OneThinker：全能图像和视频推理模型

强化学习（RL）最近在多模态大型语言模型（MLLMs）中引发视觉推理方面取得了显著成功。然而，现有的...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] PPTArena：用于代理式 PowerPoint 编辑的基准

我们推出 PPTArena，这是一项用于 PowerPoint 编辑的基准，衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] MultiShotMaster：可控的多镜头视频生成框架

当前的视频生成技术在单镜头剪辑（single-shot clips）方面表现出色，但在生成需要灵活镜头安排、连贯性的叙事多镜头视频（multi-shot videos）方面仍然困难，……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Video4Spatial：迈向具备上下文引导的视频生成的视觉空间智能

我们调查视频生成模型是否能够展现视觉空间智能，这是一种对人类认知至关重要的能力，仅使用视觉数据。为此……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] ViSAudio：端到端视频驱动的双耳空间音频生成

尽管视频到音频生成取得了进展，该领域主要关注单声道输出，缺乏空间沉浸感。现有的binaural方法仍然……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[论文] MAViD：用于音频-视觉对话理解与生成的多模态框架

我们提出 MAViD，一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] SMP：可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

Data-driven motion priors 能够引导 agents 产生自然行为，在创建逼真的虚拟角色方面发挥关键作用。Adversaria...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] Unrolled Networks 是 MRI 重建中的条件概率流

磁共振成像（MRI）提供了出色的软组织对比度且无需电离辐射，但其长时间的采集限制了临床实用性。最近……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] 用于肖像视频编辑的 In-Context Sync-LoRA

编辑肖像视频是一项具有挑战性的任务，需要在广泛的修改范围内实现灵活且精确的控制，例如外观变化、表情……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] U4D：不确定性感知的4D世界建模基于LiDAR序列

从 LiDAR 序列建模动态 3D 环境是构建可靠的 4D 世界以用于 autonomous driving 和 embodied AI 的核心。现有的生成框架……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] InEx：通过自省和跨模态多代理协作进行幻觉缓解

幻觉仍然是大型语言模型（LLMs）的关键挑战，阻碍了可靠的多模态LLM（MLLM）发展。现有的解决方案……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 上下文图像攻击：视觉上下文如何暴露多模态安全漏洞

虽然 Multimodal Large Language Models (MLLMs) 展现出卓越的能力，但它们的安全对齐容易受到 jailbreak 攻击。现有的攻击方法...

#research #paper #ai #nlp #computer-vision
3个月前 · ai · - · -

[Paper] BEVDilation：LiDAR中心的多模态融合用于3D目标检测

在鸟瞰视图（BEV）表示中融合 LiDAR 和 camera 信息已证明其在 3D object detection 中的有效性。然而，因为...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 轻量级实时低光增强网络用于嵌入式汽车视觉系统

在低光环境下，如夜间驾驶，图像退化严重挑战 in-vehicle camera 的安全性。由于现有的 enhancement algorithms 通常……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Layout Anything：一种用于通用房间布局估计的 Transformer

我们提出 Layout Anything，一个基于 transformer 的室内布局估计框架，它将 OneFormer 的通用分割架构适配到几何…

#research #paper #ai #computer-vision

Newer posts

Older posts