computer-vision — Page 16

排序:

3个月前 · ai · - · -

计算机视觉服务：使用 Oodles 构建智能视觉系统

图像和视频包含海量数据——但要从中提取有意义的洞察需要先进的 AI 系统。Computer Vision Services https://www...

#computer vision #deep learning #AI #image analytics #object detection #OCR #neural networks #visual data
3个月前 · ai · - · -

[Paper] SpaceTimePilot: 生成式渲染跨时空的动态场景

我们提出了 SpaceTimePilot，一种视频扩散模型，能够将空间和时间解耦，以实现可控生成渲染。给定单目视频，SpaceTimePil...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] GaMO：几何感知多视角 Diffusion Outpainting 用于稀疏视角 3D 重建

最近在3D重建方面的进展在从密集多视图图像捕获高质量场景方面取得了显著进展，但在输入视角…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Edit3r：从稀疏未配准图像的即时3D场景编辑

我们提出 Edit3r，一个前馈框架，能够在一次传递中从未配准、视角不一致、经过指令编辑的图像中重建并编辑 3D 场景。U...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] FineTec：在时间扰动下通过骨架分解和序列补全进行细粒度动作识别

从 temporally corrupted skeleton sequences 中识别 fine-grained actions 仍然是一个重大挑战，尤其是在 online 的真实场景中……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 从 Inpainting 到 Editing：自举框架用于情境丰富的视觉配音

音频驱动的视觉配音旨在将视频的唇部动作与新的语音同步，但由于缺乏理想的训练数据，根本上面临挑战：pai...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 生成式分类器避免捷径解决方案

判别式分类方法常常学习到在分布内有效的捷径，但在轻微的分布转移下就会失效。这种失效模式源于...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] FoundationSLAM：释放深度基础模型在端到端稠密视觉SLAM中的力量

我们提出了 FoundationSLAM，一个基于学习的单目稠密 SLAM 系统，旨在解决先前基于光流的方法中缺乏几何一致性的问题……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Bi-C2R: 双向持续兼容表示用于免重新索引的终身人物再识别

Lifelong person Re-IDentification (L-ReID) 利用顺序收集的数据持续训练和更新 ReID 模型，关注整体性能……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] PhysTalk：语言驱动的实时物理在 3D 高斯场景中

真实的视觉模拟无处不在，但它们的创建需要计算时间、渲染以及专业的动画知识。Open-vocabulary 视觉效果...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] DarkEQA：在低光室内环境中对具身问答的视觉-语言模型进行基准测试

视觉语言模型（VLMs）正日益被采用为具身代理的核心推理模块。现有基准在 i... 下评估它们的能力。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] CPJ：通过 Caption-Prompt-Judge 实现可解释的农业害虫诊断，并进行 LLM-Judged Refinement

准确且可解释的作物病害诊断对农业决策至关重要，然而现有方法往往依赖于成本高昂的监督式 fine‑tuning……

#research #paper #ai #nlp #computer-vision
3个月前 · ai · - · -

[Paper] 基于投影的对抗攻击：物理回环优化用于单目深度估计

深度神经网络（DNN）仍然易受对抗性攻击的影响，当在输入图像中添加特定扰动时，会导致误分类。这种...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

深度迷宫求解器

引言几天前，我在 X 上看到一条帖子 https://twitter.com/ArnaudPannatier/status/1762864347397628396，解释说 diffusion models 可以用于解决……

#convolutional neural network #PyTorch #maze solving #supervised learning #diffusion models #computer vision
3个月前 · ai · - · -

[Paper] RedunCut：基于测量的采样与准确性性能建模用于低成本实时视频分析

实时视频分析（LVA）在大规模摄像头群中持续运行，但使用现代视觉模型的推理成本仍然很高。为了解决这个问题，动态 m...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

使用 AI 去除 CapCut 水印 — 我们如何构建无闪烁视频修复系统

封面图片：使用 AI 去除 CapCut 水印 — 我们如何构建无闪烁视频修复系统 https://media2.dev.to/dynamic/image/width=1000,height=420,...

#CapCut #watermark removal #video inpainting #AI restoration #deep learning #computer vision #flicker‑free video #video editing
3个月前 · ai · - · -

AI 驱动的工业现场热力图

封面图片：AI-Powered Heat Maps for Industrial Worksites https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...

#computer vision #heatmaps #industrial safety #video analytics #workforce monitoring #CCTV #AI-powered analytics
3个月前 · ai · - · -

[Paper] Stream-DiffVSR：低延迟可流式视频超分辨率 via Auto-Regressive Diffusion

基于扩散的 video super-resolution（VSR）方法能够实现强大的感知质量，但由于依赖于……，在对延迟敏感的场景中仍不实用。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 扩散了解透明性：重新利用 Video Diffusion 进行透明物体深度和法线估计

透明物体仍然是感知系统的顽疾：折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

【论文】Web World Models

语言代理日益需要持久的世界，在其中它们可以行动、记忆和学习。现有方法位于两个极端：传统的网络 fra...

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] IDT：一种基于物理的 Transformer 用于前馈多视角固有分解

内在图像分解是视觉理解的基础，因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] RoboMirror: 先理解再模仿——从视频到类人机器人行走

人类通过视觉观察学习运动，先解释视觉内容再模仿动作。然而，state-of-the-art humanoid locomotion sy...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] OmniAgent：音频引导的主动感知代理用于全模态音视频理解

Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展；然而，它们往往缺乏细粒度的跨模态理解……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 重新思考端到端 3D 感知的时空对齐

时空对齐对于自动驾驶（AD）中端到端（E2E）感知的时间建模至关重要，能够提供有价值的结构和纹理……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 3D形状生成中的记忆：实证研究

生成模型正日益被用于3D视觉，以合成新形状，但仍不清楚它们的生成是否依赖于记忆训练数据。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 可扩展残差特征聚合框架与混合元启发式优化用于多模态CT成像的稳健早期胰腺肿瘤检测

胰腺肿瘤的早期检测是一个主要的临床难题，主要原因在于肿瘤往往在对比度极低的边缘出现。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 摄像头 RGB‑NIR 火灾检测

提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] RxnBench：一个用于评估大语言模型在科学文献中对化学反应理解的多模态基准

将多模态大语言模型（MLLMs）整合到化学领域有望彻底改变科学发现的方式，但它们理解 d...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] CubeBench: 诊断交互式、长时程空间推理在部分观测下

大型语言模型（LLM）代理虽然在数字领域表现出色，但由于在形成……方面的挑战，它们在物理世界部署方面存在显著差距。

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] MedGemma vs GPT-4：开源与专有 Zero-shot 医学疾病分类（基于图像）

多模态大型语言模型（LLMs）通过借助广泛的临床知识来解释扫描图像，为医学影像引入了一种新兴范式……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

从伪影检测对抗样本

概述许多 AI 系统可以被对图像进行微小、几乎不可见的编辑所欺骗，从而导致它们给出错误的答案。研究人员已发现一种简…

#adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
3个月前 · ai · - · -

Apple 发布开源模型，瞬间将 2D 照片转换为 3D 视图

文章链接: https://github.com/apple/ml-sharp 评论链接: https://news.ycombinator.com/item?id=46401539 得分: 71 评论: 23

#apple #open-source #3d-reconstruction #computer-vision #machine-learning
3个月前 · ai · - · -

[Paper] 少看，准看：双向感知塑形用于多模态推理

大型视觉语言模型（VLMs）通常受益于中间视觉线索，这些线索可以通过外部工具注入，或在生成过程中作为潜在视觉标记产生。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

基于逆向的视觉编辑提供了一种有效且无需训练的方式，根据用户指令编辑图像或视频。现有方法通常……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式：tr...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Yume-1.5：文本控制的交互式世界生成模型

最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而，这些方法中的大多数面临着…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] StreamAvatar：用于实时交互式人类化身的Streaming Diffusion Models

实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] MAI-UI 技术报告：以真实世界为中心的基础 GUI 代理

GUI 代理的开发可能会彻底改变下一代人机交互。受此愿景的激励，我们提出了 MAI-UI，一个 … 系列。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 基于提示驱动的视频分割基础模型的后门攻击

基于提示的 Video Segmentation Foundation Models（VSFMs），如 SAM2，正日益在自动驾驶和数字病理等应用中部署，……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Patch-Discontinuity Mining用于通用Deepfake检测

生成式人工智能的快速发展使得能够创建高度逼真的假面部图像，对个人 ... 构成了严重威胁。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] SketchPlay：使用手势驱动草图绘制直观创建物理真实感 VR 内容

在 VR 中创建物理上逼真的内容通常需要复杂的建模工具或预定义的 3D 模型、纹理和动画，这会带来显著的 b……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] LongFly：长时程 UAV Vision-and-Language Navigation 与 Spatiotemporal Context Integration

无人机（UAV）是灾后搜救的关键工具，面临信息密度高、视角快速变化等挑战……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

WiFi DensePose：通过墙壁的基于 WiFi 的密集人体姿态估计系统

请提供您需要翻译的具体摘录或摘要内容，我才能为您进行翻译。

#WiFi #DensePose #human pose estimation #computer vision #through walls #deep learning #open-source #research
4个月前 · ai · - · -

LAION-400M：开放数据集，包含 CLIP 过滤的 4 亿图像-文本对

LAION-400M 是一个巨大的公共资源，旨在激发新想法。它包含约 4 亿张图像，每张图像配有简短的标题，经过清理和 CLIP‑filtered。

#LAION-400M #image-text dataset #CLIP-filtered #multimodal AI #open data #machine learning #computer vision
4个月前 · ai · - · -

AutoAugment：从数据中学习增强策略

概述 AutoAugment 是一种自动发现有效图像增强策略的方法。通过系统地测试许多简单的变换——例如…

#autoaugment #data augmentation #computer vision #image classification #machine learning #deep learning #neural networks
4个月前 · ai · - · -

[Paper] HiStream：通过消除冗余的流式传输实现高效高分辨率视频生成

高分辨率视频生成虽然对数字媒体和电影至关重要，但由于扩散模型的二次复杂度，在计算上成为瓶颈，...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 超越记忆：多模态序回归基准，揭示视觉语言模型中的流行度偏差

我们揭示了最先进的视觉语言模型（VLMs）中显著的流行偏差，这些模型在著名建筑上的准确率最高可提升34%……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 流媒体视频指令微调

我们提出了 Streamo，这是一种实时流式视频 LLM，充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……

#research #paper #ai #computer-vision

Newer posts

Older posts