computer-vision — Page 19

排序:

4个月前 · ai · - · -

[Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建

本文介绍了 JMMMU‑Pro，一个基于图像的日语多学科多模态理解基准，以及 Vibe Benchmark Construction，一个可扩展的…

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · software · - · -

alpr.watch

文章链接: https://alpr.watch/ 评论链接: https://news.ycombinator.com/item?id=46290916 积分: 224 评论数: 114

#license-plate-recognition #computer-vision #open-source #ALPR #surveillance-tool
4个月前 · ai · - · -

Ai2的 Molmo 2 表明开源模型可以在视频理解方面与专有巨头竞争

在刚刚发布其 Olmo 基础模型最新版本后，Allen Institute for AI（Ai2）于周二推出了其开源视频模型 Molmo 2，……

#Molmo 2 #video understanding #open-source AI #Allen Institute for AI #foundation models #computer vision
4个月前 · ai · - · -

AlphaFlow：理解与改进 MeanFlow 模型

AlphaFlow 为 MeanFlow 图像模型提供了更平滑的训练计划，减少了其两个目标之间的冲突，加速了学习。概述……

#MeanFlow #AlphaFlow #image generation #training optimization #deep learning #computer vision
4个月前 · ai · - · -

[Paper] DiffusionBrowser：通过多分支解码器实现交互式 Diffusion 预览

视频扩散模型已经彻底改变了生成视频合成，但它们不够精确、速度慢，并且在生成过程中可能不透明——让用户处于……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] LitePT：更轻更强的 Point Transformer

现代用于3D点云处理的神经架构同时包含卷积层和attention块，但如何最佳组合它们仍未明确……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

视觉分词器（例如 VAEs）中的潜在空间质量对现代生成模型至关重要。然而，标准的基于重构的训练……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

【论文】循环视频掩码自编码器

我们提出了循环视频掩码自编码器（Recurrent Video Masked‑Autoencoders，RVM）：一种新颖的视频表示学习方法，使用 transformer‑based 循环神经网络来……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] I-Scene：3D 实例模型是隐式可泛化空间学习者

泛化仍然是 interactive 3D scene generation 的核心挑战。现有的 learning-based 方法将 spatial understanding 建立在有限的场景上。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] LASER：用于无训练流式4D重建的层级尺度对齐

近期的前馈重建模型，如 VGGT 和 π^3，取得了令人印象深刻的重建质量，但由于二次内存开销，它们无法处理流式视频。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 前馈 3D 编辑通过 Text-Steerable Image-to-3D

近期在 image-to-3D 领域的进展为设计、AR/VR 和机器人技术打开了巨大的可能性。然而，要在实际应用中使用 AI 生成的 3D 资产，……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] JoVA：统一多模态学习用于联合视频-音频生成

在本文中，我们提出了 JoVA，一个用于联合 video‑audio 生成的统一框架。尽管最近取得了令人鼓舞的进展，现有方法仍面临两个关键的限制……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 迈向数字人类的交互智能

我们引入了 Interactive Intelligence，这是一种新颖的数字人范式，能够实现与人格对齐的表达、自适应交互以及自我进化……

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[论文] 面向个性化文本到图像生成的方向性 Textual Inversion

Textual Inversion（TI）是一种高效的 text-to-image 个性化方法，但在复杂提示下常常失败。我们将这些失败归因于 embedding norm。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] World Models 可利用人类视频实现灵巧操作

灵巧的操作具有挑战性，因为它需要理解细微的手部运动如何通过与物体的接触影响环境。我们介绍…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] 从代码到现场：评估卷积神经网络在芒果叶疾病诊断中的鲁棒性

通过鲁棒性评估对人工智能（AI）模型进行验证和确认，对于保证其在集成中的可靠性能至关重要……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Do-Undo：在视觉语言模型中生成与逆转物理动作

我们引入 Do-Undo 任务和基准，以填补视觉语言模型中的关键空白：理解和生成物理上合理的场景转换……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] DA-SSL：自监督域适配器，以在 turbt 病理切片中利用基础模型

近期在组织病理学中的深度学习框架，特别是与病理基础模型（PFMs）相结合的多实例学习（MIL），已经显示出……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

AI 图像生成器通过变得更糟而变得更好

真正的玩家会知道这张图中的雷尼尔山看起来太大了，但这张 AI 图像中对 Washington State 渡轮的再现令人毛骨悚然。这是 The Ste...

#AI image generation #diffusion models #generative AI #computer vision #deep learning #stable diffusion #AI art
4个月前 · ai · - · -

AI 监控的演变

英国道路上的 AI 监控在普利茅斯附近的 A38 公路上，一个灰蒙蒙的早晨，一辆配备双摄像头的白色面包车每小时捕获数千张图像，i...

#AI surveillance #computer vision #privacy #road safety #emotion recognition
4个月前 · ai · - · -

AI Background Remover：图像质量与边缘精度

介绍：AI background remover 在运行良好时几乎像魔法一样令人惊叹——而在失效时则令人沮丧。差异通常归结为两个细微的……

#background removal #image quality #edge accuracy #computer vision #AI models #image segmentation #deep learning
4个月前 · ai · - · -

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

3D Gaussian Splatting（3DGS）的最新成功通过实现快速优化和实时渲染高质量辐射，重新塑造了新视角合成。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] V-RGBX：视频编辑对内在属性的精确控制

大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈，因为真实世界的数据获取成本高且 s...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Structure From Tracking：蒸馏结构保持的运动用于视频生成

现实是一场在刚性约束与可变结构之间的舞蹈。对于视频模型而言，这意味着生成既保持保真度又保持结构的运动……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 不确定感知域适应用于临床照片中的白癜风分割

在常规临床照片中准确量化白癜风的范围对于纵向监测治疗反应至关重要。我们提出一种可信的，f...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] MatAnyone 2：通过学习式质量评估器实现视频抠图的规模化

视频抠图仍受限于现有数据集的规模和真实感。虽然利用分割数据可以提升语义稳定性，但缺乏 effe...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估

模型指纹检测技术已经成为一种有前景的方法，用于将 AI 生成的图像归属到其源模型，但它们的鲁棒性仍然...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 通过 Diffusion-Based Domain Adaptation 缩小细胞计数中的 Domain Gap

生成逼真的合成显微图像对于在标签稀缺的环境中训练深度学习模型至关重要，例如在细胞计数等任务中。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] SVG-T2I：在无变分自编码器的情况下扩展文本到图像潜在扩散模型

基于视觉基础模型（Visual Foundation Model，VFM）表征的视觉生成提供了一条极具前景的统一路径，用于整合视觉理解、感知……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要，然而当前的多模态大语言模型（MLLMs）仍面临困难……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] HFS：整体查询感知帧选择用于高效视频推理

在视频理解中，关键帧选择面临重大挑战。传统的 top‑K 选择方法会独立对帧进行打分，往往会失败于……

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

对边缘设备上实时 DNN 应用的需求日益增长，需要更快地推理日益复杂的模型。虽然许多设备包括 sp...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] StereoSpace：在规范空间中通过端到端扩散实现深度无关的立体几何合成

我们介绍了 StereoSpace，一个基于 diffusion 的 monocular-to-stereo 合成框架，它仅通过 viewpoint conditioning 来建模几何，而无需 …

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] WorldLens：真实世界中驾驶世界模型的全谱评估

生成式世界模型正在重塑具身 AI，使代理能够合成看起来逼真的 4D 驾驶环境，但往往在物理上失败……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 通过立体和中层视觉赋能动态城市导航

在语言和视觉领域基础模型的成功激励了对全端到端机器人导航基础模型（NFMs）的研究。NFMs 直接映射单目……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Omni-Attribute：开放词汇属性编码器用于视觉概念个性化

视觉概念个性化旨在将特定的图像属性（如身份、表情、光照和风格）转移到未见过的场景中。然而……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] SceneMaker：开放集 3D 场景生成，解耦去遮挡与姿态估计模型

我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 双向 Normalizing Flow：从数据到噪声再返回

归一化流（Normalizing Flows，NFs）已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Group Diffusion: 通过解锁跨样本协作提升图像生成

在本工作中，我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的，但我们则提出……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] E-RayZer：自监督 3D 重建作为空间视觉预训练

自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models，但在学习3D方面仍基本未被探索。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 我们准备好在文本到3D生成中使用RL了吗？一次渐进式调查

Reinforcement learning (RL)，此前已被证明在大型语言模型和多模态模型中有效，已成功扩展用于提升二维图像生成……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] ClusIR: 面向聚类引导的全能图像恢复

All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而，现有方法常常 f...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] AlcheMinT: 细粒度时间控制用于多参考一致视频生成

近期，基于大型扩散模型的以主题为驱动的视频生成取得了重要进展，使得能够在用户提供的主题条件下进行个性化内容合成……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Mull-Tokens: 模态无关潜在思考

推理超越语言；现实世界需要对空间、时间、affordances，以及远超文字所能表达的诸多方面进行推理。现有的 multimo...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] OmniView：全视扩散模型用于 3D 和 4D 视图合成

先前将相机控制注入扩散模型的方法主要聚焦于 4D 一致性任务的特定子集：新视角合成、文本到视频…

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 更强的无归一化Transformer

尽管归一化层长期被视为深度学习架构中不可或缺的组成部分，最近引入的 Dynamic Tanh (DyT) 已经……

#research #paper #ai #machine-learning #nlp #computer-vision

Newer posts

Older posts