computer-vision — Page 5

排序:

0个月前 · ai · - · -

[Paper] 更少高斯，更多纹理：4K 前馈纹理化 Splatting

现有的 feed-forward 3D Gaussian Splatting 方法预测 pixel-aligned primitives，导致随着分辨率的提升，primitive 数量呈二次增长。...

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] ShotStream：用于交互式叙事的流式多镜头视频生成

Multi-shot video generation 对长篇叙事讲述至关重要，但当前的 bidirectional architectures 存在交互性受限和高延迟的问题。

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] MuRF：释放视觉基础模型的多尺度潜能

Vision Foundation Models (VFMs) 已成为现代计算机视觉的基石，提供了跨广泛任务的鲁棒表示。虽然最近…

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] RefAlign：表示对齐用于参考到视频生成

Reference-to-video (R2V) 生成是一种可控视频合成范式，它通过文本提示和参考图像共同约束生成过程。

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] Vega：学习使用自然语言指令驾驶

Vision-language-action 模型已经重塑了自动驾驶，使语言能够融入决策过程。然而，大多数现有的流水线仅……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] 驾驶我的方式：视觉-语言-动作模型的偏好对齐用于个性化驾驶

人类驾驶行为本质上是个人化的，它受长期习惯的塑造并受到短期意图的影响。个体在加速方式上存在差异。

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] MegaFlow：Zero-Shot 大位移光流

对大位移光流的精确估计仍然是一个关键挑战。现有方法通常依赖于迭代的局部搜索或/以及领域特…

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[论文] PSDesigner：自动化图形设计的类人创意工作流

平面设计是一种创造性和创新性的过程，在电子商务和广告等应用中发挥着关键作用。然而，开发一个自动化…

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] 我的击球有多好？量化乒乓球选手的技能水平

评估个人的技能水平至关重要，因为它本质上会塑造他们的行为。然而，量化技能却具有挑战性，因为它是潜在的……

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] 在无分类器的情况下释放指导用于 Human-Object Interaction Animation

生成逼真的 human-object interaction (HOI) 动画仍然具有挑战性，因为它需要同时建模动态的人体动作和多样的物体……

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] PackForcing: 短视频训练足以用于长视频采样和长上下文推理

Autoregressive video diffusion models 已经展示了显著的进展，但它们仍然受到难以处理的线性 KV‑cache 增长、时间重复性的瓶颈限制……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] PixelSmile：迈向细粒度面部表情编辑

细粒度面部表情编辑长期受到内在语义重叠的限制。为了解决这个问题，我们构建了 Flex Facial Expression (FFE) 数据集……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] 无需 Hard Negatives：Concept Centric Learning 实现 Compositionality，且不削弱 Contrastive Models 的 Zero-shot 能力

Contrastive vision-language (V&L) 模型仍然是各种应用的热门选择。然而，出现了若干限制，最显著的是…

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

【论文】R-C2：循环一致强化学习提升多模态推理

稳健的感知和推理需要跨感官模态的一致性。然而，当前的multimodal models往往违反这一原则，产生矛盾的……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] 眼不见，心不忘：用于动态视频世界模型的混合记忆

Video world models 在模拟物理世界方面展现出巨大的潜力，然而现有的 memory mechanisms 主要将环境视为 static canvases……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

利用计算机视觉增强公民科学进行鱼类监测

背景：每年春季，river herring 种群会从马萨诸塞州沿海水域迁徙，开始它们沿河流和溪流向淡水的年度旅程。

#computer vision #citizen science #fish monitoring #environmental AI #marine conservation #underwater video analysis #MIT CSAIL #population dynamics
0个月前 · ai · - · -

[Paper] TAG：针对视觉-语言-动作模型中稳定面向对象推理的目标无关引导

Vision--Language--Action (VLA) 策略在将语言指令和视觉观察映射到机器人动作方面表现出强劲的进展，然而它们的可靠性……

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] Latent-WAM：潜在世界动作建模用于端到端自动驾驶

我们介绍了 Latent‑WAM，一个高效的端到端自动驾驶框架，通过空间感知和动力学信息实现强大的轨迹规划。

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] 视觉语言模型 vs 人类：感知图像质量评估

心理物理实验仍然是感知图像质量评估（IQA）最可靠的方法，但其成本高且可扩展性有限，促使自动…

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] EndoVGGT：GNN增强深度估计用于手术3D重建

精确的可变形软组织 3D 重建对于外科机器人感知至关重要。然而，低纹理表面、镜面高光以及...

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] Chameleon：用于长时程机器人操作的情景记忆

机器人操作通常需要记忆：遮挡和状态变化会导致决策时的观测在感知上出现别名，从而使动作选择变得非-Ma...

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] VFIG：在 SVG 中使用视觉语言模型对复杂图形进行矢量化

可伸缩矢量图形（SVG）是技术插图和数字设计的关键格式，提供精确的分辨率独立性和灵活的语义……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] 面向免训练的场景文字编辑

场景文字编辑旨在修改自然图像中的文本内容，同时保持视觉真实感和语义一致性。现有方法通常需要 t...

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] POLY-SIM：多语种说话人识别与缺失模态 Grand Challenge 2026 评估计划

多模态说话人识别系统通常假设在训练和测试期间都能获得完整且同质的音视频模态……

#research #paper #ai #computer-vision
0个月前 · ai · - · -

[Paper] LensWalk：主动式视频理解——通过规划你在视频中的观看方式

视频的密集时序特性对自动分析构成了巨大的挑战。尽管使用了强大的 Vision-Language Models，现有方法仍然……

#research #paper #ai #machine-learning #computer-vision
0个月前 · ai · - · -

[Paper] UI-Voyager：一种通过失败经验学习的自进化 GUI 代理

随着多模态大语言模型（MLLMs）的进步，自治移动 GUI 代理受到了越来越多的关注。然而，现有的方法……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

Ai2 发布 MolmoWeb：视觉网络代理的颠覆性创新

引言想象一下，一个能够浏览互联网、完成任务并像人类一样与网站互动的个人助理。Ai2 最近的发布…

#MolmoWeb #visual web agents #AI2 #AI assistants #web automation #computer vision #large language models
1个月前 · ai · - · -

[Paper] OccAny：通用无约束城市3D占用

依赖于 in-domain annotations 和精确的 sensor‑rig priors，现有的 3D occupancy prediction 方法在可扩展性和 out‑of‑domain 泛化方面都受到限制。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MedObvious：通过临床分诊揭示VLM中的医学Moravec悖论

Vision Language Models (VLMs) 正在越来越多地用于医学报告生成和视觉问答等任务。然而，流畅的诊断文本却……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] UniGRPO：统一策略优化用于推理驱动的视觉生成

能够交错生成的统一模型已经成为一种有前景的范式，社区正日益趋向于使用自回归建模来……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] DA-Flow：降解感知光流估计与扩散模型

在高质量数据上训练的光流模型在面对真实世界的失真（如模糊、噪声和压缩伪影）时，往往会出现严重的性能下降。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] WildWorld：大规模数据集用于动态世界建模，包含动作和显式状态，面向生成式 ARPG

Dynamical systems theory and reinforcement learning 将世界的演化视为由动作驱动的潜在状态动力学，视觉观测提供部分 …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 按需视觉：通过稀疏、动态选择的视觉语言交互提升 VLLM 效率

现有的提升大型视觉语言模型（LVLMs）效率的方法主要基于视觉 token reduction 的概念。这种方法...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Foveated Diffusion: 高效空间自适应的图像和视频生成

扩散模型和流匹配模型已经解锁了前所未有的创意内容创作能力，例如交互式图像和流媒体视频生成……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 单视角足够！野外单目训练用于新视角生成

Monocular novel-view synthesis 长期以来一直需要 multi-view image pairs 作为 supervision，这限制了 training data scale 和 diversity。我们认为这并非必要……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] TETO：使用教师观察进行事件跟踪以实现运动估计和帧插值

事件相机以微秒级分辨率捕捉每像素的亮度变化，提供在 RGB 帧之间丢失的连续运动信息。然而，现有的...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SpecEyes：通过推测感知与规划加速 Agentic 多模态 LLMs

具备代理能力的多模态大语言模型（MLLMs）（例如 OpenAI o3 和 Gemini Agentic Vision）通过迭代的视觉……展现出卓越的推理能力。

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] VTAM：Video‑Tactile‑Action 模型用于超越 VLAs 的复杂物理交互

Video-Action Models（VAMs）已成为具身智能的有前景框架，通过从原始视频流中学习隐式世界动态来生成 t...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] InverFill：一步逆转用于增强少步扩散修补

近期 diffusion-based 模型在 image inpainting 中实现了 photorealism，但需要大量 sampling steps，限制了实际使用。Few-step text-to-image 模型的……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 通过文本表示引导的推理，释放多模态大型语言模型的空间推理能力

现有的多模态大语言模型（MLLMs）在 3D 空间推理方面存在困难，因为它们未能构建 3D 环境的结构化抽象……

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] WorldCache：内容感知缓存用于加速视频世界模型

Diffusion Transformers (DiTs) 为高保真视频世界模型提供动力，但由于顺序去噪和昂贵的时空计算，仍然计算成本高……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] VideoDetective：通过外部查询和内在相关性进行线索搜索，以实现长视频理解

由于上下文窗口有限，长视频理解对多模态大语言模型（MLLMs）仍然具有挑战性，这需要识别稀疏的 q…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 端到端训练用于统一标记化和潜在去噪

潜在扩散模型（LDMs）通过在学习到的潜在空间中操作，实现高保真合成。然而，训练最先进的 LDMs 需要复杂的 st...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] UniMotion：用于 Motion-Text-Vision 理解与生成的统一框架

我们提出 UniMotion，据我们所知，这是第一个能够同时理解和生成人体动作、自然语言和 RGB 图像的统一框架。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] ThinkJEPA：通过大规模视觉语言推理模型赋能潜在世界模型

最近在潜在世界模型（例如 V-JEPA2）方面的进展显示出在从视频观测中预测未来世界状态的有希望的能力。然而，...

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] DualCoT-VLA：视觉-语言 Chain of Thought via 并行推理 for Vision-Language-Action Models

Vision-Language-Action (VLA) 模型将视觉观测和语言指令直接映射到机器人动作。虽然在简单任务上有效，标准 VL...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Vision-Language Models 中空间推理的双重机制

许多多模态任务，例如图像字幕生成和视觉问答，需要视觉语言模型（VLMs）将对象与其属性关联……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 重新利用几何基础模型进行多视图扩散

虽然最近在 generative latent spaces 方面的进展推动了 single-image generation 的显著进展，但用于 novel view synthesis 的最佳 latent space ...

#research #paper #ai #computer-vision

Newer posts

Older posts