计算机视觉服务:使用 Oodles 构建智能视觉系统
图像和视频包含海量数据——但要从中提取有意义的洞察需要先进的 AI 系统。Computer Vision Services https://www...
图像和视频包含海量数据——但要从中提取有意义的洞察需要先进的 AI 系统。Computer Vision Services https://www...
我们提出了 SpaceTimePilot,一种视频扩散模型,能够将空间和时间解耦,以实现可控生成渲染。给定单目视频,SpaceTimePil...
最近在3D重建方面的进展在从密集多视图图像捕获高质量场景方面取得了显著进展,但在输入视角…
我们提出 Edit3r,一个前馈框架,能够在一次传递中从未配准、视角不一致、经过指令编辑的图像中重建并编辑 3D 场景。U...
从 temporally corrupted skeleton sequences 中识别 fine-grained actions 仍然是一个重大挑战,尤其是在 online 的真实场景中……
音频驱动的视觉配音旨在将视频的唇部动作与新的语音同步,但由于缺乏理想的训练数据,根本上面临挑战:pai...
判别式分类方法常常学习到在分布内有效的捷径,但在轻微的分布转移下就会失效。这种失效模式源于...
我们提出了 FoundationSLAM,一个基于学习的单目稠密 SLAM 系统,旨在解决先前基于光流的方法中缺乏几何一致性的问题……
Lifelong person Re-IDentification (L-ReID) 利用顺序收集的数据持续训练和更新 ReID 模型,关注整体性能……
真实的视觉模拟无处不在,但它们的创建需要计算时间、渲染以及专业的动画知识。Open-vocabulary 视觉效果...
视觉语言模型(VLMs)正日益被采用为具身代理的核心推理模块。现有基准在 i... 下评估它们的能力。
准确且可解释的作物病害诊断对农业决策至关重要,然而现有方法往往依赖于成本高昂的监督式 fine‑tuning……
深度神经网络(DNN)仍然易受对抗性攻击的影响,当在输入图像中添加特定扰动时,会导致误分类。这种...
实时视频分析(LVA)在大规模摄像头群中持续运行,但使用现代视觉模型的推理成本仍然很高。为了解决这个问题,动态 m...
封面图片:使用 AI 去除 CapCut 水印 — 我们如何构建无闪烁视频修复系统 https://media2.dev.to/dynamic/image/width=1000,height=420,...
封面图片:AI-Powered Heat Maps for Industrial Worksites https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...
基于扩散的 video super-resolution(VSR)方法能够实现强大的感知质量,但由于依赖于……,在对延迟敏感的场景中仍不实用。
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...
内在图像分解是视觉理解的基础,因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...
人类通过视觉观察学习运动,先解释视觉内容再模仿动作。然而,state-of-the-art humanoid locomotion sy...
Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展;然而,它们往往缺乏细粒度的跨模态理解……
时空对齐对于自动驾驶(AD)中端到端(E2E)感知的时间建模至关重要,能够提供有价值的结构和纹理……
生成模型正日益被用于3D视觉,以合成新形状,但仍不清楚它们的生成是否依赖于记忆训练数据。
胰腺肿瘤的早期检测是一个主要的临床难题,主要原因在于肿瘤往往在对比度极低的边缘出现。
提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……
将多模态大语言模型(MLLMs)整合到化学领域有望彻底改变科学发现的方式,但它们理解 d...
大型语言模型(LLM)代理虽然在数字领域表现出色,但由于在形成……方面的挑战,它们在物理世界部署方面存在显著差距。
多模态大型语言模型(LLMs)通过借助广泛的临床知识来解释扫描图像,为医学影像引入了一种新兴范式……
文章链接: https://github.com/apple/ml-sharp 评论链接: https://news.ycombinator.com/item?id=46401539 得分: 71 评论: 23
大型视觉语言模型(VLMs)通常受益于中间视觉线索,这些线索可以通过外部工具注入,或在生成过程中作为潜在视觉标记产生。
基于逆向的视觉编辑提供了一种有效且无需训练的方式,根据用户指令编辑图像或视频。现有方法通常……
Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式:tr...
最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而,这些方法中的大多数面临着…
实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…
GUI 代理的开发可能会彻底改变下一代人机交互。受此愿景的激励,我们提出了 MAI-UI,一个 … 系列。
基于提示的 Video Segmentation Foundation Models(VSFMs),如 SAM2,正日益在自动驾驶和数字病理等应用中部署,……
生成式人工智能的快速发展使得能够创建高度逼真的假面部图像,对个人 ... 构成了严重威胁。
在 VR 中创建物理上逼真的内容通常需要复杂的建模工具或预定义的 3D 模型、纹理和动画,这会带来显著的 b……
无人机(UAV)是灾后搜救的关键工具,面临信息密度高、视角快速变化等挑战……
请提供您需要翻译的具体摘录或摘要内容,我才能为您进行翻译。
LAION-400M 是一个巨大的公共资源,旨在激发新想法。它包含约 4 亿张图像,每张图像配有简短的标题,经过清理和 CLIP‑filtered。
概述 AutoAugment 是一种自动发现有效图像增强策略的方法。通过系统地测试许多简单的变换——例如…
高分辨率视频生成虽然对数字媒体和电影至关重要,但由于扩散模型的二次复杂度,在计算上成为瓶颈,...
我们揭示了最先进的视觉语言模型(VLMs)中显著的流行偏差,这些模型在著名建筑上的准确率最高可提升34%……
我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……