computer-vision — Page 21

排序:

4个月前 · ai · - · -

[Paper] EditThinker：为任意图像编辑器解锁迭代推理

Instruction-based image editing 已成为一个重要的研究领域，受益于 image generation foundation models，已经实现了高水平的美学效果……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] SIMPACT：仿真驱动的动作规划使用视觉语言模型

视觉语言模型（VLMs）展现出卓越的常识和语义推理能力。然而，它们缺乏对物理动态的扎实理解。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 测量背景对用于自动驾驶感知的深度学习中分类和特征重要性的影响

常见的可解释人工智能（XAI）在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性：saliency maps……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Synset Signset Germany：用于德国交通标志识别的合成数据集

在本文中，我们提出了一种 synthesis pipeline 和 dataset，用于 traffic sign recognition 任务的训练/测试数据，结合了 d... 的优势。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 基于物理的汽车 LiDAR 仿真

我们提出了一种用于模拟汽车飞行时间（ToF）LiDAR的解析模型，包含光斑蔓延、回波脉冲宽度和环境光，并包括步骤……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 合成面部数据生成技术在人脸识别中的比较研究

面部识别已成为一种广泛使用的身份验证和识别方法，应用于安全访问和寻找失踪人员。它的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 知道何时不确定的世界模型：可控视频生成与校准不确定性

近期在 generative video models 方面的进展已在 high-fidelity video synthesis 领域取得了重大突破，尤其是在 controllable video generation 上……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] NICE：神经隐式颅面模型用于正颌手术预测

正颌手术是纠正牙面骨骼畸形、提升咬合功能和面部美观的关键干预措施。准确…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 主动视频感知：迭代证据搜索用于 Agentic 长视频理解

长视频理解（LVU）具有挑战性，因为回答现实世界的查询往往依赖于埋藏在数小时大部分内容中的稀疏、时间上分散的线索……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

YOLOv1 论文导读：YOLO首次看到世界的那一天

从头实现的 YOLOv1 架构及其 PyTorch 实现的详细 walkthrough。文章标题：YOLOv1 论文解析：YOLO 首次亮相的那一天。

#YOLOv1 #object detection #computer vision #deep learning #PyTorch #model walkthrough #neural networks
4个月前 · ai · - · -

[Paper] 通用权重子空间假设

我们展示了在不同任务上训练的深度神经网络表现出惊人相似的低维参数子空间。我们提供了首次大规模……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Light‑X：生成式 4D 视频渲染与相机和光照控制

最近在光照控制方面的进展将基于图像的方法扩展到视频，但仍面临光照保真度与时间一致性之间的权衡。Mo...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 价值梯度引导用于流匹配对齐

虽然已有方法可以将 flow matching models——一种流行且有效的 generative models——与 human preferences 对齐，但现有方法未能……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 基于多对比 MRI 的深度婴儿脑分割

磁共振成像（MRI）的分割通过划分解剖结构，促进对人类大脑发育的分析。然而，在婴儿和...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

最近的统一多模态大语言模型（MLLMs）展示了令人印象深刻的能力，结合了链式思考（CoT）推理，以增强文本到-...

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] Splannequin: 冻结单目Mannequin-Challenge影像的双检测Splatting

从单目Mannequin‑Challenge（MC）视频合成高保真冻结的3D场景是一个独特的问题，与标准的动态场景重建不同……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] ARM-Thinker：通过代理式工具使用和视觉推理强化多模态生成式奖励模型

奖励模型对于使视觉语言系统与人类偏好保持一致至关重要，但当前的方法存在幻觉、视觉定位薄弱等问题，……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] ShadowDraw：从任意对象到阴影绘画构图艺术

我们介绍了 ShadowDraw，一个将普通 3D 对象转化为阴影绘画构图艺术的框架。给定一个 3D 对象，我们的系统预测场景参数……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] NeuralRemaster：相位保留扩散用于结构对齐生成

标准扩散通过高斯噪声对数据进行破坏，其傅里叶系数具有随机幅度和随机相位。虽然在无条件或……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] EvoIR：面向全能图像恢复的进化频率调制

All-in-One Image Restoration (AiOIR) 任务通常涉及多样的退化，需要稳健且多功能的策略。然而，大多数现有方法 typ...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] TV2TV：统一框架用于交错语言和视频生成

视频生成模型正在快速发展，但在需要大量语义分支或重复高…的复杂视频输出方面仍可能面临困难。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] SA-IQA：用多维奖励重新定义空间美学的图像质量评估

近年来，针对 AI 生成图像（AIGI）的图像质量评估（IQA）发展迅速；然而，现有方法主要针对肖像和 ar...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

透视墙壁：AI 对遮挡运动的新视角 by Arvind Sundararajan

是否曾经在手部交叉、被物体遮挡，甚至稍微超出视野时，仍然难以获得准确的动作捕捉？标准的计算机视觉系统……

#computer vision #motion capture #occlusion handling #deformable state space model #visual feature extraction #AI research
4个月前 · ai · - · -

[Paper] SimFlow：简化的潜在归一化流端到端训练

Normalizing Flows (NFs) 学习数据与高斯分布之间的可逆映射。先前的工作通常存在两个限制。首先，它们添加……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 独特的生活，共享的世界：从单生命视频中学习

我们引入了“single-life”学习范式，在该范式中，我们仅在由单个人拍摄的第一人称视频上训练一个独特的vision model。我们leverag...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] PosterCopilot：面向专业平面设计的布局推理与可控编辑

Graphic design 是现代视觉传播的基石，作为推广文化和商业活动的重要媒介。最近的进展已经…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 用于体积重建的 Radiance Meshes

我们引入 radiance meshes，这是一种使用通过 Delaunay tetrahedralization 生成的恒定密度 tetrahedral cells 来表示 radiance fields 的技术。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] SpaceTools：工具增强的空间推理 via Double Interactive RL

Vision Language Models (VLMs) 展示了强大的定性视觉理解能力，但在实现具身所需的度量精确空间推理方面仍然困难……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Stable Signer: 层次化手语生成模型

手语生成（Sign Language Production，SLP）是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面，……

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] RELIC：交互式视频世界模型与长时程记忆

真正的交互式世界模型需要三个关键要素：real-time long-horizon streaming、一致的spatial memory，以及精确的user control。然而，...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 快速且高效的 Normalizing Flows 及图像生成模型的应用

本论文在两个主要领域提出了新颖的贡献：提升生成模型的效率，特别是 normalizing flows，以及应用 gener...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Jina-VLM：小型多语言视觉语言模型

我们提出 Jina-VLM，这是一款拥有 2.4B 参数的视觉语言模型，在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

衡量关键：图像生成评估的客观指标

使用最先进模型生成高质量视觉内容正变得越来越容易。开源模型可以在笔记本电脑上运行，云服务将 tex...

#image generation #evaluation metrics #generative AI #computer vision #quality assessment #Pruna #P-image #AI model benchmarking
4个月前 · ai · - · -

[Paper] PSA：金字塔稀疏注意力用于高效视频理解与生成

注意力机制是基础模型的核心，但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 关于草图表示学习的时序性

草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] MagicQuillV2：精确且交互式的图像编辑与分层视觉提示

我们提出 MagicQuill V2，这是一种新颖的系统，引入了分层组合范式用于生成式图像编辑，弥合了语义……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] CAMEO：多视角扩散模型的对应注意力对齐

多视角扩散模型最近作为一种强大的新视角合成范式出现，然而支撑其视图一致性的底层机制仍未被完全阐明……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] OneThinker：全能图像和视频推理模型

强化学习（RL）最近在多模态大型语言模型（MLLMs）中引发视觉推理方面取得了显著成功。然而，现有的...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] PPTArena：用于代理式 PowerPoint 编辑的基准

我们推出 PPTArena，这是一项用于 PowerPoint 编辑的基准，衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] MultiShotMaster：可控的多镜头视频生成框架

当前的视频生成技术在单镜头剪辑（single-shot clips）方面表现出色，但在生成需要灵活镜头安排、连贯性的叙事多镜头视频（multi-shot videos）方面仍然困难，……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Video4Spatial：迈向具备上下文引导的视频生成的视觉空间智能

我们调查视频生成模型是否能够展现视觉空间智能，这是一种对人类认知至关重要的能力，仅使用视觉数据。为此……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] ViSAudio：端到端视频驱动的双耳空间音频生成

尽管视频到音频生成取得了进展，该领域主要关注单声道输出，缺乏空间沉浸感。现有的binaural方法仍然……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] MAViD：用于音频-视觉对话理解与生成的多模态框架

我们提出 MAViD，一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] SMP：可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

Data-driven motion priors 能够引导 agents 产生自然行为，在创建逼真的虚拟角色方面发挥关键作用。Adversaria...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Unrolled Networks 是 MRI 重建中的条件概率流

磁共振成像（MRI）提供了出色的软组织对比度且无需电离辐射，但其长时间的采集限制了临床实用性。最近……

#research #paper #ai #computer-vision

Newer posts

Older posts