computer-vision — Page 22

排序:

4个月前 · ai · - · -

[论文] 用于肖像视频编辑的 In-Context Sync-LoRA

编辑肖像视频是一项具有挑战性的任务，需要在广泛的修改范围内实现灵活且精确的控制，例如外观变化、表情……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] U4D：不确定性感知的4D世界建模基于LiDAR序列

从 LiDAR 序列建模动态 3D 环境是构建可靠的 4D 世界以用于 autonomous driving 和 embodied AI 的核心。现有的生成框架……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] InEx：通过自省和跨模态多代理协作进行幻觉缓解

幻觉仍然是大型语言模型（LLMs）的关键挑战，阻碍了可靠的多模态LLM（MLLM）发展。现有的解决方案……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 上下文图像攻击：视觉上下文如何暴露多模态安全漏洞

虽然 Multimodal Large Language Models (MLLMs) 展现出卓越的能力，但它们的安全对齐容易受到 jailbreak 攻击。现有的攻击方法...

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] BEVDilation：LiDAR中心的多模态融合用于3D目标检测

在鸟瞰视图（BEV）表示中融合 LiDAR 和 camera 信息已证明其在 3D object detection 中的有效性。然而，因为...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 轻量级实时低光增强网络用于嵌入式汽车视觉系统

在低光环境下，如夜间驾驶，图像退化严重挑战 in-vehicle camera 的安全性。由于现有的 enhancement algorithms 通常……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Layout Anything：一种用于通用房间布局估计的 Transformer

我们提出 Layout Anything，一个基于 transformer 的室内布局估计框架，它将 OneFormer 的通用分割架构适配到几何…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 使用 VideoScience-Bench 对视频生成的科学理解与推理进行基准测试

视频生成的下一个前沿是开发能够进行 zero-shot 推理的模型，其中对 real-world scientific laws 的理解至关重要，以实现……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] EGGS：可交换的 2D/3D Gaussian Splatting 用于几何‑外观平衡的新视角合成

新视角合成（NVS）在计算机视觉和图形学中至关重要，广泛应用于增强现实（AR）、虚拟现实（VR）和自动驾驶。虽然3D Gaussian Splatting（3D...）

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

伟大的均衡器

比亚马逊更能预测你购物习惯的街角小店。以麦当劳的精准度自动化供应链的本地餐厅。Th...

#AI democratization #small business AI #machine learning #natural language processing #computer vision #automation #enterprise AI tools
4个月前 · ai · - · -

[Paper] 使用智能手表进行实时多模态数据采集及其在教育中的可视化

可穿戴传感器，例如 smartwatches，已在医疗、体育和教育等领域日益普及，实现了持续监测……

#research #paper #ai #computer-vision
4个月前 · software · - · -

如何在 OCR 运行前修复倾斜的文档

封面图片：如何在 OCR 运行前修复被裁剪的文档 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...

#OCR #image preprocessing #document scanning #text extraction #computer vision #image correction #devtools
4个月前 · ai · - · -

[Paper] EfficientFlow：高效等变流策略学习用于具身 AI

生成模型最近在视觉运动策略学习方面展现出显著的前景，使得在多样化的具身 AI 任务中实现灵活且富有表现力的控制。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 面向自驱实验室的以数据为中心的可视化开发

Self-driving laboratories 为减少生物科学中劳动密集、耗时且常常难以重复的工作流程提供了一条有前景的路径。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Visual Sync: 多摄像头同步 via 跨视角对象运动

今天，人们可以轻松记录难忘的时刻，范围包括音乐会、体育赛事、讲座、家庭聚会和生日派对等多种消费……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 生成视频中的物体比看起来更慢：模型遭受 Sub‑Earth Gravity 且不懂 Galileo’s Principle……暂时

Video generators 正在日益被评估为潜在的 world models，这要求它们对 physical laws 进行编码和理解。我们调查它们的…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 生成式视频运动编辑与 3D 点轨迹

相机和物体运动是视频叙事的核心。然而，精确编辑这些捕获的运动仍然是一个重大挑战，尤其是在...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] TUNA：驯服统一视觉表征以用于原生统一多模态模型

统一多模态模型（UMMs）旨在在单一框架内共同执行多模态理解和生成。我们提出了 TUNA，一种原生的 UMM，...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 改进的 Mean Flows：关于 Fastforward 生成模型的挑战

MeanFlow（MF）最近被确立为一种一步生成建模的框架。然而，它的“fastforward”特性在…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] AirSim360：在无人机视角下的全景仿真平台

360度全向理解领域因推动空间智能而受到日益关注。然而，缺乏大规模…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] MV-TAP：在多视角视频中跟踪任意点

多视角摄像系统能够对复杂的真实世界场景进行丰富的观测，在多视角设置中理解动态对象已成为核心……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 从音频学习视觉可供性

我们引入了 Audio-Visual Affordance Grounding (AV-AG)，这是一项从动作声音中分割对象交互区域的新任务。不同于现有方法……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] RoaD：将 Rollouts 视为 Demonstrations 用于闭环监督微调自动驾驶策略

自动驾驶策略通常通过 open-loop behavior cloning 对人类示范进行训练。然而，这类策略在协变量偏移时会受到影响。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Chain-of-Ground：通过迭代推理和参考反馈提升 GUI Grounding

GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 重新审视直接编码：可学习的时间动态用于静态图像脉冲神经网络

处理缺乏固有时间动态的静态图像仍然是脉冲神经网络（SNN）的一项根本性挑战。在直接训练的SNN中，静态...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Video‑R2：强化多模态语言模型中的一致且有根基的推理

对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Video-CoM：通过操作链进行交互式视频推理

近期的多模态大语言模型（MLLMs）在视频理解方面取得了进展，但大多数仍然是“思考视频”，即一旦视频被编码，推理……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] AnyTalker：通过交互细化实现多人物说话视频生成的规模化

最近，多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 视觉生成调优

大型视觉语言模型（VLMs）通过广泛的预训练，有效弥合模态差距，获取与视觉表示相匹配的复杂特征……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 面向对象的数据合成用于类别级目标检测

Deep learning 方法在 object detection 方面已经实现了对图像中特定目标类别的可靠检测。然而，扩展模型的检测能力…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Hunyuan-GameCraft-2: 指令跟随的交互式游戏世界模型

近期在 generative world models 方面的进展，使得在创建 open-ended game environments 上取得了显著进展，已从 static scene synthesis 向……发展。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] DisMo：解耦运动表示用于开放世界运动迁移

最近在 text-to-video (T2V) 和 image-to-video (I2V) 模型方面的进展，使得从简单的文本创建视觉上引人注目且动态的视频成为可能……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] MANTA: 基于物理的通用水下目标跟踪

水下目标跟踪具有挑战性，因为波长相关的衰减和散射会严重扭曲不同深度和水体条件下的外观……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[论文] VQRAE：Representation Quantization Autoencoders 用于多模态理解、生成与重建

在单一 tokenizer 中统一多模态的理解、生成和重建表示仍然是构建统一模型的关键挑战。此前...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 通过基于注意力的可解释性优化多模态语言模型

现代的大型语言模型变得多模态，能够分析文本和图像等各种数据格式。虽然微调在适应这些多模态……

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

大规模视觉语言模型（LVLMs）在需要视觉信息的任务中展现出先进的能力，包括目标检测。这些能力……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] Canvas-to-Image: 使用多模态控制的组合图像生成

虽然现代扩散模型在生成高质量且多样化的图像方面表现出色，但它们仍然在高保真组合和多模态控制方面存在困难，...

#image generation #diffusion models #multimodal control #computer vision #research
4个月前 · ai · - · -

[Paper] TraceGen：在 3D 轨迹空间中的世界建模实现跨体态视频学习

学习在新平台和新场景中仅通过少量示例来学习新的机器人任务仍然具有挑战性。虽然其他形态——人类…（后文保持不变）

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] G$^2$VLM: 基于几何的视觉语言模型，具备统一的 3D 重建与空间推理

Vision-Language Models (VLMs) 仍然缺乏空间智能方面的鲁棒性，在空间理解和推理任务上表现不佳。我们...

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 无像素的视觉：来自相机轨迹的感知

是否可以仅凭相机轨迹——它在空间中划出的路径——而不观看像素来感知视频的内容？本文首次系统地探讨了这一问题……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 革新胶质瘤分割与分级：使用 3D MRI 的引导混合深度学习模型

Gliomas 是一种脑肿瘤类型，具有高死亡率，这意味着早期且准确的诊断对于肿瘤的治疗干预至关重要……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 不确定性量化用于视觉对象姿态估计

量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[论文] Multi-Crit：在多元标准遵循上的多模态评审基准

大型多模态模型（LMM）因其强大的指令遵循能力和一致性，正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准，用于测试 LMM 能否充当可靠的评审...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] CaFlow：提升长期动作质量评估的 Causal Counterfactual Flow

动作质量评估（AQA）从动作视频中预测细粒度的执行分数，已广泛应用于体育、康复和技能评估……

#action-quality-assessment #causal-inference #video-analysis #computer-vision #long-term-temporal-modeling
4个月前 · ai · - · -

[Paper] 视觉Transformer中非单调缩放机制

更深的视觉Transformer往往表现不如较浅的模型，这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析，...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Qwen3-VL 技术报告

我们推出 Qwen3-VL，这是截至目前 Qwen 系列中最强大的视觉语言模型，在广泛的多模态基准上实现了卓越的性能……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 基于GCN的动作识别的主动学习

尽管图卷积网络（GCNs）在基于骨架的动作识别中取得了显著成功，但它们的性能往往依赖于大量的实验室…

#active learning #graph convolutional networks #action recognition #skeleton-based vision #computer vision

Newer posts

Older posts