computer-vision — Page 6

排序:

1个月前 · ai · - · -

[Paper] DUO-VSR: 双流蒸馏用于一步视频超分辨率

基于扩散的 video super-resolution（VSR）最近实现了显著的保真度，但仍然受到高昂采样成本的限制。虽然 distribution mat…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SpatialReward：可验证的空间奖励建模用于文本到图像生成中的细粒度空间一致性

近期通过强化学习 (RL) 的文本到图像 (T2I) 生成的最新进展受益于评估语义对齐和视觉质量的奖励模型。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

教机器看见（第1部分）：为什么视觉很难

人类视觉处理 vs. 机器视觉：作为人类，我们可以瞬间在图像中识别出一只猫、一只狗和一位女士。我们的脑部结合了 attention、memory、以及……

#computer vision #OpenCV #image processing #machine learning #neural networks
1个月前 · ai · - · -

[Paper] MME-CoF-Pro：评估视频生成模型在文本和视觉提示下的推理连贯性

视频生成模型展现出新兴的推理行为。确保生成的事件在帧之间保持因果一致性对于可靠的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 从掩码到像素与意义：VLM 图像篡改的新分类法、基准与度量

现有的篡改检测基准在很大程度上依赖于 object masks，这与真实的 edit signal 严重不匹配：许多位于 mask 内的像素实际上未被修改……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] LumosX：将任意身份与其属性关联以实现个性化视频生成

近期在 diffusion models 方面的突破显著提升了 text-to-video generation，使得个性化内容创作能够实现细粒度的控制……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 确定性模式提议：对模糊分割的高效生成式采样替代方案

许多 segmentation 任务，例如 medical image segmentation 或 future state prediction，本质上是模糊的，这意味着多个预测同样……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 野火蔓延场景：使用无训练方法提升 Segmentation Diffusion Models 的样本多样性

在不确定的环境中预测未来状态，例如野火蔓延、医学诊断或自动驾驶，需要能够考虑多…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MuSteerNet：通过观察-反应相互引导从视频生成的人类反应

视频驱动的人体反应生成旨在合成直接响应观察到的视频序列的3D人体动作，这对于构建人类——

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 通过对Rectified Flow的重新表述改进图像到图像翻译

在本工作中，我们提出了 Image-to-Image Rectified Flow Reformulation (I2I‑RFR)，一种实用的插件式重构方法，将标准的 I2I 回归网络重新表述为……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] VideoSeek：长时程视频代理与工具引导的搜索

Video agentic models 已经推动了具有挑战性的视频‑语言任务的发展。然而，大多数 agentic 方法仍然在 densely sampled 的基础上严重依赖 greedy parsing ……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

Token pruning 对提升视觉语言模型（VLMs）的计算效率至关重要，尤其是在时间冗余显著的基于视频的任务中。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 通用骨架理解通过可微渲染和MLLMs

多模态大语言模型（MLLMs）展现出强大的视觉-语言推理能力，但仍局限于其原生模态，无法直接处理 st...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

多模态大语言模型（MLLMs）在连接视觉和语言方面取得了令人印象深刻的进展，但它们仍然在空间理解方面存在困难……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] EchoGen：循环一致学习用于统一布局-图像生成与理解

在本工作中，我们提出了 EchoGen，一个用于 layout-to-image generation 和 image grounding 的统一框架，能够生成具有精确布局的图像和……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 文本嵌入插值在连续图像引导中的出乎意料的有效性

我们提出了一种 training-free 框架，用于在 test time 对 text‑conditioned generative models 进行连续且可控的图像编辑。与之前的...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] LoST：语义层级标记化用于3D形状

Tokenization 是在各种模态的生成建模中的基础技术。尤其是，它在自回归（AR）模型中发挥关键作用，……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] GMT：目标条件多模态Transformer用于3D场景中的6-DOF对象轨迹合成

在3D环境中合成可控的6-DOF对象操作轨迹对于使机器人能够与复杂场景交互至关重要，但仍然……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 多功能编辑视频内容、动作和动态，无需训练

Controlled video generation 在近几年取得了显著的进步。然而，编辑操作和动态事件，或插入应产生影响的内容……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 感受空间：自运动感知视频表示用于高效且精准的3D场景理解

近期的多模态大型语言模型（MLLMs）在三维场景中的空间推理方面表现出很高的潜力。然而，它们通常依赖于计算上……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] VideoAtlas：在对数计算中导航长篇视频

将语言模型扩展到视频会带来两个挑战：表示方面，现有方法依赖于有损近似；以及长上下文方面，其中 capti...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] WorldCam：交互式自回归3D游戏世界，以相机姿态作为统一的几何表示

最近在 video diffusion transformers 方面的进展使得交互式游戏世界模型成为可能，允许用户在扩展的…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MessyKitchens：接触丰富的对象级 3D 场景重建

Monocular 3D scene reconstruction 最近取得了显著进展。得益于现代 neural architectures 和大规模数据，近期方法实现了……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] SegviGen：重新利用3D生成模型进行部件分割

我们介绍了 SegviGen，一个将原生 3D 生成模型重新用于 3D 部件分割的框架。现有的流水线要么将强大的 2D 先验提升到 3D……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SparkVSR：通过稀疏关键帧传播的交互式视频超分辨率

视频超分辨率（VSR）的目标是从低分辨率（LR）估计中恢复高质量的视频帧，但大多数现有的VSR方法表现得像黑盒……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

【论文】SOMA：统一参数化人体模型

参数化人体模型是人体重建、动画和仿真的基础，但它们仍然相互不兼容：SMPL、SMPL-X、MHR、Anny…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] M^3：稠密匹配与多视角基础模型在单目 Gaussian Splatting SLAM 中的结合

从未标定的单目视频进行流式重建仍然具有挑战性，因为它既需要高精度的姿态估计，又需要计算效率高的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] DINO 看到了什么：ALiBi 位置编码降低了 Vision Transformers 中的位置信息偏置

Vision transformers（ViTs）——尤其是像 DINOv2 这样的特征基础模型——学习到丰富的表征，可用于许多下游任务。然而，architectu...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 对遥感数据集标签噪声识别的以数据为中心方法的评估

Label noise（指错误标签）在许多真实世界的数据集中存在，已知会严重限制深度学习模型的泛化能力。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 深度强化学习驱动的边缘卸载用于延迟受限的 XR 流程

沉浸式扩展现实（XR）应用引入了对延迟高度敏感的工作负载，这些工作负载必须在满足严格的实时响应要求的同时，运行在能源……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 面向动态环境中可推广的机器人操作

Vision-Language-Action (VLA) 模型在静态操作方面表现出色，但在具有移动目标的动态环境中表现不佳。这一性能差距主要源于 …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 先观察后行动：提升视觉基础表征以用于视觉-语言-动作模型

Vision-Language-Action（VLA）模型最近作为一种有前景的机器人操作范式出现，其中可靠的动作预测关键依赖于……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] GlyphPrinter：区域分组直接偏好优化实现字形精确视觉文本渲染

生成用于视觉文本渲染的准确 glyphs 是必不可少且充满挑战的。现有方法通常通过在大量数据上进行训练来提升文本渲染效果。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Tri-Prompting：视频扩散对场景、主体和运动的统一控制

最近的视频扩散模型在视觉质量方面取得了显著进步，但精确、细粒度的控制仍然是限制其实用性的关键瓶颈。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] HSImul3R：Physics-in-the-Loop 重建仿真就绪的人体-场景交互

我们提出 HSImul3R，一个统一的框架，用于从随意捕获（包括稀疏视角）中实现可用于仿真的 3D 重建人‑场景交互（HSI）。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Fast SAM 3D Body: 加速 SAM 3D Body 实现实时全身人体网格恢复

SAM 3D Body（3DB）在单目 3D 人体网格恢复方面实现了最先进的精度，但其每张图像数秒的推理延迟阻碍了实时……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 将世界模拟模型扎根于真实世界的大都市

如果一个 world simulation model 能够渲染的不是想象中的环境，而是实际存在的城市会怎样？之前的 generative world models 在视觉上合成了 pla...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

‘Pokémon Go’玩家在不知情的情况下用30B图像训练送货机器人

一名女子在华盛顿特区白宫前的拉斐特公园玩 Pokémon Go 时举起手机，时间是2016年7月12日。

#Pokémon Go #augmented reality #computer vision #robotics #image dataset #delivery robots #AI training #machine learning
1个月前 · ai · - · -

构建 Iris：使用 Gemini Live API 的实时空间感知代理

概述 Iris 是一个 real‑time spatial awareness agent，通过你的 camera 进行观察并与你对话。将你的 device 指向任何东西——一个房间、一条街道、一个工作空间……

#Gemini Live API #real-time AI #spatial awareness #computer vision #voice interaction #accessibility #AI agent
1个月前 · ai · - · -

从不完美的人体动作数据中学习运动型类人网球技能

摘要人类运动员展示出多才多艺且高度动态的网球技术，能够成功进行高速网球的竞争性回合。然而...

#humanoid robotics #motion capture #imitation learning #reinforcement learning #computer vision #tennis simulation #human motion data
1个月前 · ai · - · -

[Paper] DualSwinFusionSeg: 通过 Dual Swin Transformer 结合多尺度融合和 UNet++ 的多模态火星滑坡分割

对火星滑坡的自动分割，尤其是在诸如瓦列斯·马里内里斯等构造活跃地区，对行星地质学和危害评估非常重要。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 实现与讨论基于Local Fourier Spectrum Analysis方法的粗糙原木端部图像的Pith Estimation

在本文中，我们分析并提出了该方法的 Python 实现——“Pith Estimation on Rough Log End images using Local Fourier Spectrum Analysis”，b...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 低场磁共振图像增强基于欠采样 k 空间

低场磁共振成像（MRI）为资源有限的环境提供了一种成本效益高的医学成像替代方案。然而，它的广泛采用...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 低场磁共振图像质量提升：使用欠采样 k 空间和分布外泛化

低场磁共振成像（MRI）提供了经济实惠的诊断成像途径，但面临诸如采集时间延长和图像质量降低等挑战。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 通过迭代证据细化提升视觉推理

视觉语言模型（VLMs）在图像推理方面的能力日益增强，但稳健的视觉推理通常需要在 t 中重新定位中间步骤。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 重新审视空间-语义引导的超分辨率中的感知-失真权衡

图像超分辨率（SR）旨在重建具有高感知质量和低失真的高分辨率图像，但在根本上受到……的限制。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] PhysMoDPO：物理上可信的类人形运动与偏好优化

最近在文本条件的人体动作生成方面的进展主要得益于在大规模人体动作数据上训练的 diffusion models。基于 th...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 时空物理系统的表征学习

机器学习方法针对时空物理系统主要聚焦于 next-frame prediction，目标是学习一个准确的 emulator f...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts