[Paper] EditThinker:为任意图像编辑器解锁迭代推理
Instruction-based image editing 已成为一个重要的研究领域,受益于 image generation foundation models,已经实现了高水平的美学效果……
Instruction-based image editing 已成为一个重要的研究领域,受益于 image generation foundation models,已经实现了高水平的美学效果……
水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
视觉语言模型(VLMs)展现出卓越的常识和语义推理能力。然而,它们缺乏对物理动态的扎实理解。
Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……
常见的可解释人工智能(XAI)在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性:saliency maps……
在本文中,我们提出了一种 synthesis pipeline 和 dataset,用于 traffic sign recognition 任务的训练/测试数据,结合了 d... 的优势。
我们提出了一种用于模拟汽车飞行时间(ToF)LiDAR的解析模型,包含光斑蔓延、回波脉冲宽度和环境光,并包括步骤……
面部识别已成为一种广泛使用的身份验证和识别方法,应用于安全访问和寻找失踪人员。它的…
近期在 generative video models 方面的进展已在 high-fidelity video synthesis 领域取得了重大突破,尤其是在 controllable video generation 上……
正颌手术是纠正牙面骨骼畸形、提升咬合功能和面部美观的关键干预措施。准确…
长视频理解(LVU)具有挑战性,因为回答现实世界的查询往往依赖于埋藏在数小时大部分内容中的稀疏、时间上分散的线索……
从头实现的 YOLOv1 架构及其 PyTorch 实现的详细 walkthrough。文章标题:YOLOv1 论文解析:YOLO 首次亮相的那一天。
我们展示了在不同任务上训练的深度神经网络表现出惊人相似的低维参数子空间。我们提供了首次大规模……
最近在光照控制方面的进展将基于图像的方法扩展到视频,但仍面临光照保真度与时间一致性之间的权衡。Mo...
虽然已有方法可以将 flow matching models——一种流行且有效的 generative models——与 human preferences 对齐,但现有方法未能……
磁共振成像(MRI)的分割通过划分解剖结构,促进对人类大脑发育的分析。然而,在婴儿和...
最近的统一多模态大语言模型(MLLMs)展示了令人印象深刻的能力,结合了链式思考(CoT)推理,以增强文本到-...
从单目Mannequin‑Challenge(MC)视频合成高保真冻结的3D场景是一个独特的问题,与标准的动态场景重建不同……
奖励模型对于使视觉语言系统与人类偏好保持一致至关重要,但当前的方法存在幻觉、视觉定位薄弱等问题,……
我们介绍了 ShadowDraw,一个将普通 3D 对象转化为阴影绘画构图艺术的框架。给定一个 3D 对象,我们的系统预测场景参数……
标准扩散通过高斯噪声对数据进行破坏,其傅里叶系数具有随机幅度和随机相位。虽然在无条件或……
All-in-One Image Restoration (AiOIR) 任务通常涉及多样的退化,需要稳健且多功能的策略。然而,大多数现有方法 typ...
视频生成模型正在快速发展,但在需要大量语义分支或重复高…的复杂视频输出方面仍可能面临困难。
近年来,针对 AI 生成图像(AIGI)的图像质量评估(IQA)发展迅速;然而,现有方法主要针对肖像和 ar...
是否曾经在手部交叉、被物体遮挡,甚至稍微超出视野时,仍然难以获得准确的动作捕捉?标准的计算机视觉系统……
Normalizing Flows (NFs) 学习数据与高斯分布之间的可逆映射。先前的工作通常存在两个限制。首先,它们添加……
我们引入了“single-life”学习范式,在该范式中,我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...
Graphic design 是现代视觉传播的基石,作为推广文化和商业活动的重要媒介。最近的进展已经…
我们引入 radiance meshes,这是一种使用通过 Delaunay tetrahedralization 生成的恒定密度 tetrahedral cells 来表示 radiance fields 的技术。
Vision Language Models (VLMs) 展示了强大的定性视觉理解能力,但在实现具身所需的度量精确空间推理方面仍然困难……
手语生成(Sign Language Production,SLP)是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面,……
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,以及应用 gener...
我们提出 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...
使用最先进模型生成高质量视觉内容正变得越来越容易。开源模型可以在笔记本电脑上运行,云服务将 tex...
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……
我们提出 MagicQuill V2,这是一种新颖的系统,引入了分层组合范式用于生成式图像编辑,弥合了语义……
多视角扩散模型最近作为一种强大的新视角合成范式出现,然而支撑其视图一致性的底层机制仍未被完全阐明……
强化学习(RL)最近在多模态大型语言模型(MLLMs)中引发视觉推理方面取得了显著成功。然而,现有的...
我们推出 PPTArena,这是一项用于 PowerPoint 编辑的基准,衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…
当前的视频生成技术在单镜头剪辑(single-shot clips)方面表现出色,但在生成需要灵活镜头安排、连贯性的叙事多镜头视频(multi-shot videos)方面仍然困难,……
我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……
尽管视频到音频生成取得了进展,该领域主要关注单声道输出,缺乏空间沉浸感。现有的binaural方法仍然……
我们提出 MAViD,一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……
Data-driven motion priors 能够引导 agents 产生自然行为,在创建逼真的虚拟角色方面发挥关键作用。Adversaria...
磁共振成像(MRI)提供了出色的软组织对比度且无需电离辐射,但其长时间的采集限制了临床实用性。最近……