computer-vision

排序:

14小时前 · ai · - · -

[Paper] 观察快与慢：学习视频中的时间流动

我们如何判断一个视频是被加速还是减速的？我们如何生成不同速度的视频？虽然视频已经成为现代通信的核心……

#research #paper #ai #machine-learning #computer-vision
14小时前 · ai · - · -

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

理解人类活动及其周围环境通常依赖视觉感知，但摄像头在隐私、安全方面仍然带来持续的挑战，...

#research #paper #ai #computer-vision
14小时前 · ai · - · -

[Paper] Vista4D：视频重新拍摄与4D点云

我们提出了 Vista4D，一个稳健且灵活的视频再拍摄框架，将输入视频和目标摄像机定位在 4D 点云中。具体而言，给定一个…

#research #paper #ai #computer-vision
14小时前 · ai · - · -

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

尽管大型视觉语言模型（LVLMs）的能力取得了令人印象深刻的进展，这些系统仍然容易出现幻觉，即输出是 n...

#research #paper #ai #machine-learning #nlp #computer-vision
14小时前 · ai · - · -

[Paper] UniGenDet：统一的生成‑判别框架用于协同进化图像生成与生成图像检测

近年来，图像生成和生成图像检测都取得了显著进展。尽管它们发展迅速，却在很大程度上仍相互独立。

#research #paper #ai #computer-vision
1天前 · ai · - · -

[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

自监督学习（SSL）是航空影像表示学习的标准方法。现有方法强制在增强视图之间保持不变性……

#research #paper #ai #machine-learning #computer-vision
1天前 · ai · - · -

通过非梯度向量流进行流图学习 [pdf]

我无法转换该文章，因为提供的内容是二进制 PDF 流，而不是可提取的文本。请提供文章的文本示例……

#flow map learning #vector flow #machine learning #computer vision #non‑gradient methods #research paper
1天前 · ai · - · -

[Paper] DeVI：基于物理的灵巧人-物交互通过合成视频模仿

最近在视频生成模型方面的进展，使得能够在广泛的场景和对象类别中合成逼真的human‑object interaction视频。

#research #paper #ai #computer-vision
1天前 · ai · - · -

[Paper] FedSIR：带噪声标签的联邦学习的谱客户端识别与重新标记

联邦学习（FL）使得在不共享原始数据的情况下进行协作模型训练成为可能；然而，分布式客户端中噪声标签的存在可能会……

#research #paper #ai #machine-learning #computer-vision
1天前 · ai · - · -

[Paper] 全球海上风电基础设施：来自密集Sentinel-1时间序列的部署与运营动态

海上风电行业正快速扩张，增加了对独立的高时间分辨率基础设施部署监测的需求……

#research #paper #ai #machine-learning #computer-vision
1天前 · ai · - · -

[Paper] ParetoSlider: 扩散模型后训练用于连续奖励控制

强化学习（RL）后训练已成为使生成模型与人类偏好保持一致的标准，然而大多数方法依赖于单一的标量……

#research #paper #ai #machine-learning #computer-vision
1天前 · ai · - · -

[Paper] OMIBench：大型视觉语言模型中奥林匹克水平多图像推理的基准测试

大型视觉语言模型（LVLMs）在奥林匹克水平的推理任务上取得了显著进展。然而，当前的奥林匹克水平多模态…

#research #paper #ai #machine-learning #nlp #computer-vision
1天前 · ai · - · -

[Paper] LEXIS：LatEnt ProXimal Interaction Signatures用于从图像的3D HOI

从RGB图像重建3D Human-Object Interaction对于感知系统至关重要。然而，这仍然具有挑战性，因为它需要捕捉子…

#research #paper #ai #machine-learning #computer-vision
1天前 · ai · - · -

[Paper] LLaDA2.0-Uni：统一多模态理解与生成的扩散大语言模型

我们提出 LLaDA2.0‑Uni，一个统一的离散扩散大型语言模型（dLLM），支持在原生集成的环境中进行多模态理解和生成。

#research #paper #ai #computer-vision
1天前 · ai · - · -

[Paper] GeoRect4D: 几何兼容的生成式校正用于动态稀疏视图3D重建

从稀疏多视角视频重建动态3D场景是高度不适定的，常导致几何崩塌、轨迹漂移和漂浮伪影……

#research #paper #ai #computer-vision
1天前 · ai · - · -

[Paper] 探索高阶自相似性用于视频理解

时空自相似（STSS），捕捉跨帧的视觉对应关系，为视频的时间动态提供了一种有效的表示方式……

#research #paper #ai #computer-vision
2天前 · ai · - · -

[Paper] Tstars-Tryon 1.0：鲁棒且真实的 Virtual Try-On 用于多样化时尚单品

近期在 image generation 和 editing 方面的进展为 virtual try-on 打开了新的机会。然而，现有方法仍难以满足复杂的真实——

#research #paper #ai #computer-vision
2天前 · ai · - · -

[Paper] CityRAG：步入城市：空间式视频生成

我们解决生成 3D 一致、可导航且空间上有依据的环境的问题：对真实地点的模拟。现有的视频生成…

#research #paper #ai #computer-vision
2天前 · ai · - · -

[Paper] 稳定性边缘的泛化

训练现代神经网络通常依赖于较大的学习率，在接近稳定性边缘的情况下进行，此时优化动态表现出振荡的……

#research #paper #ai #machine-learning #computer-vision
2天前 · ai · - · -

[Paper] 用于条件医学图像生成的 Generative Drifting

条件医学图像生成在许多临床相关的成像任务中发挥着重要作用。然而，现有方法仍然面临一个根本性的挑战……

#research #paper #ai #computer-vision
2天前 · ai · - · -

[Paper] VLA Foundry：用于训练视觉-语言-动作模型的统一框架

我们提出 VLA Foundry，一个统一 LLM、VLM 和 VLA 训练于单一代码库的开源框架。大多数开源 VLA 工作专注于 ac...

#research #paper #ai #machine-learning #computer-vision
2天前 · ai · - · -

[Paper] ReImagine：重新思考通过图像优先合成实现可控高质量人类视频生成

由于在有限的多视角数据下，难以同时建模人体外观、动作和相机视角，Human video generation 仍然具有挑战性。

#research #paper #ai #computer-vision
2天前 · ai · - · -

[Paper] SpanVLA：高效动作桥接与负恢复样本学习用于视觉-语言-动作模型

Vision-Language-Action (VLA) 模型提供了一种有前景的自动驾驶范式，用于利用世界知识和推理能力，尤其是在长期…

#research #paper #ai #computer-vision
2天前 · ai · - · -

[Paper] Face Anything: 4D 人脸重建来自任意图像序列

从图像序列中对动态人脸进行精确的重建和跟踪具有挑战性，因为 non-rigid deformations、表情变化以及视点……

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] MUA：移动超细致可动画化化身

构建逼真、可动画的全身数字人仍然是计算机图形学和视觉领域长期存在的挑战。近期在可动画的 ava...

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] ReCap：轻量化指涉式 Grounding 用于连贯故事可视化

Story Visualization 旨在生成一系列图像，忠实地描绘文本叙事，保持角色身份、空间配置、...

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] T-REN：学习文本对齐的区域标记提升稠密视觉语言对齐与可扩展性

尽管最近取得了进展，vision-language encoders 仍面临两个核心限制：(1) 语言与 dense vision features 之间的对齐较弱，这会导致……

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] MultiWorld: 可扩展的多智能体多视角视频世界模型

Video world models 在模拟用户或代理的动作所导致的环境动态方面取得了显著成功。它们被建模为动作‑…

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] SynAgent：通过单体到协作代理协同实现可泛化的协作式类人操作

可控协作类人操作是具身智能的一个基础且具有挑战性的问题，因为数据极度稀缺，复杂性在……

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] MetaCloak-JPEG：JPEG 鲁棒对抗扰动，防止未授权的 DreamBooth 基于 Deepfake 生成

主题驱动的文本到图像合成的快速进展，尤其是 DreamBooth，使得一个无需同意的深度伪造流水线成为可能：对手只需要…

#research #paper #ai #computer-vision
3天前 · ai · - · -

[Paper] UDM-GRPO：稳定且高效的组相对策略优化用于统一离散扩散模型

Uniform Discrete Diffusion Model（UDM）最近作为一种有前景的离散生成建模范式出现；然而，它与强化学习的结合……

#research #paper #ai #machine-learning #computer-vision
5天前 · ai · - · -

[Paper] RemoteShield：实现稳健的多模态大语言模型用于地球观测

一个稳健的用于地球观测的多模态大语言模型（MLLM）应在真实的输入变化下保持一致的解释和推理。...

#research #paper #ai #computer-vision
5天前 · ai · - · -

[Paper] 利用画像感知的多模态 LLM 提升零样本个性化图像美学评估

个性化图像美学评估（PIAA）旨在预测单个用户对图像的主观评分，这需要对用户特定的美学……

#research #paper #ai #machine-learning #computer-vision
5天前 · ai · - · -

[Paper] 基于条纹投影的视觉流水线用于自动硬盘拆解

未回收的 e-waste 代表了巨大的经济损失。硬盘驱动器（HDD）构成了有价值的 e-waste 流，需要机器人拆解。Automa...

#research #paper #ai #computer-vision
5天前 · ai · - · -

[论文] 区域亲和注意力用于深紫外成像下的全切片乳腺癌分类

乳腺癌诊断需要快速且精确的工具，但传统的组织病理学方法在术中常常不足。Deep Ultraviole...

#research #paper #ai #machine-learning #computer-vision
5天前 · ai · - · -

[Paper] Vision-Language模型中的跨模态注意力分析与优化：关于视觉可靠性的研究

视觉语言模型（VLMs）实现了强大的跨模态性能，但最新证据表明，它们过度依赖文本描述，而对...利用不足。

#research #paper #ai #machine-learning #computer-vision
6天前 · ai · - · -

[Paper] 重新利用 3D 生成模型进行自回归布局生成

我们介绍 LaviGen，一个将 3D 生成模型重新用于 3D 布局生成的框架。不同于之前从文本推断对象布局的方法……

#research #paper #ai #computer-vision
6天前 · ai · - · -

[Paper] FineCog-Nav：整合细粒度认知模块用于零样本多模态无人机导航

UAV 视觉语言导航（VLN）要求代理从自我中心视角在复杂的 3D 环境中导航，同时遵循模糊的多步骤 i...

#research #paper #ai #computer-vision
6天前 · ai · - · -

[Paper] 增强雾霾野生动物图像：AnimalHaze3k 与 IncepDehazeGan

大气雾霾显著降低了野生动物影像的质量，阻碍了对保护至关重要的计算机视觉应用，如动物检测、跟踪、……

#research #paper #ai #computer-vision
6天前 · ai · - · -

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

随着 AI-assisted video creation 越来越实用，instruction-guided video editing 已成为细化生成或捕获的 footage 的关键。

#research #paper #ai #machine-learning #nlp #computer-vision
6天前 · ai · - · -

[论文] Hero-Mamba：基于 Mamba 的双域学习用于水下图像增强

水下图像常因光在水中的吸收和散射而出现严重的退化，如颜色失真、对比度低以及细节模糊。

#research #paper #ai #computer-vision
6天前 · ai · - · -

[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

Vision Language models (VLMs) 已在广泛的基准测试中展示了强大的性能，但它们常常受到模态主导的影响，即在预测…

#research #paper #ai #machine-learning #computer-vision
6天前 · ai · - · -

[Paper] 视觉-语言模型真的能进行视觉推理吗？对模态差距的严谨研究

在 vision-language models (VLMs) 中的推理最近因其在各种下游任务中的广泛适用性而受到显著关注。然而，...

#research #paper #ai #nlp #computer-vision
6天前 · ai · - · -

[Paper] 视觉语言模型的失效点在哪里？全球尺度图像地理定位分析

图像地理定位传统上通过基于检索的地点识别或基于几何的视觉定位流水线来解决。最近的进展……

#research #paper #ai #computer-vision
6天前 · ai · - · -

[论文] Find, Fix, Reason：视频推理的上下文修复

Reinforcement learning 已经推动了 video reasoning 在 large multi-modal models 中的发展，但主流流水线要么依赖于 on-policy self-exploration，这会导致性能停滞……

#research #paper #ai #computer-vision
6天前 · ai · - · -

[Paper] CollideNet：层次多尺度视频表示学习与解耦用于碰撞时间预测

Time-to-Collision (TTC) 预测是碰撞预防中的关键任务，需要精确的时间预测并理解局部和全局的…

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] 双向跨模态提示用于事件-帧非对称立体

传统的基于帧的相机能够捕获丰富的上下文信息，但在动态场景中受到时间分辨率有限和运动模糊的影响。Event camera...

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] LeapAlign：通过构建两步轨迹，在任意生成步骤进行后训练 Flow Matching 模型

本文聚焦于将 flow matching models 与人类偏好对齐。一个有前景的方法是通过直接反向传播 reward gradients 来进行 fine‑tuning …

#research #paper #ai #computer-vision

Newer posts

Older posts