DeepFakes:对人脸识别的新威胁?评估与检测
介绍:在视频中换脸正变得越来越容易,得益于新的 deep‑fake 工具,我们已经看到名人因伪造的片段受到伤害……
介绍:在视频中换脸正变得越来越容易,得益于新的 deep‑fake 工具,我们已经看到名人因伪造的片段受到伤害……
概述 ZoeDepth 能够从单张图像预测深度,准确处理近处和远处的物体。它结合了两种学习策略:一种能够保留……
NationAI通过AI制作/消费3D动作数据的普及,解决“Next AI”时代核心的空间智能瓶颈。通过“Neuroid”和“Hey.D”构建3D数据飞轮,领先拥有百万用户基础的全球市场。The post “AI-3D 모션 기...”
概述 Mish 是一种简单的激活函数,能够显著提升基于图像的 AI 模型的性能。通过将标准激活函数替换为 M...
从单目视频重建动态3D场景需要同时捕捉高频外观细节和时间连续的运动。Exi...
左心室(LV)分割对于临床定量和心脏图像的诊断至关重要。在本工作中,我们提出了两种新颖的 deep learning 架构……
在本研究中,我们尝试释放自监督学习作为辅助任务的潜力,以优化通用深度伪造的主要任务。
联邦数据共享承诺在不集中原始数据的情况下提供实用性,但现有的嵌入级生成器在非IID客户端异质性和p...
虽然视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在检测图像和视频深度伪造方面表现出强大的泛化能力,但它们的…
结构化形状补全将缺失的几何体恢复为基元,而不是无结构点,这使得基元驱动的表面重建成为可能。 In...
手写的 STEM 考试捕捉开放式推理和图示,但人工评分速度慢且难以规模化。我们提出了一种端到端的工作流用于评分……
深度神经网络在制造业中自动化各种视觉质量检测任务方面显示出巨大的潜力。然而,它们的适用性在…
Vision-Language Models 已经在医学图像分析和疾病诊断中展示了强大的潜力。然而,在部署后,它们的性能可能…
在数字成像中,图像去马赛克是一个关键的第一步,它从颜色滤光阵列(CFA)中恢复RGB信息。通常,深度学习被…
图像和视频包含海量数据——但要从中提取有意义的洞察需要先进的 AI 系统。Computer Vision Services https://www...
我们提出了 SpaceTimePilot,一种视频扩散模型,能够将空间和时间解耦,以实现可控生成渲染。给定单目视频,SpaceTimePil...
最近在3D重建方面的进展在从密集多视图图像捕获高质量场景方面取得了显著进展,但在输入视角…
我们提出 Edit3r,一个前馈框架,能够在一次传递中从未配准、视角不一致、经过指令编辑的图像中重建并编辑 3D 场景。U...
从 temporally corrupted skeleton sequences 中识别 fine-grained actions 仍然是一个重大挑战,尤其是在 online 的真实场景中……
音频驱动的视觉配音旨在将视频的唇部动作与新的语音同步,但由于缺乏理想的训练数据,根本上面临挑战:pai...
判别式分类方法常常学习到在分布内有效的捷径,但在轻微的分布转移下就会失效。这种失效模式源于...
我们提出了 FoundationSLAM,一个基于学习的单目稠密 SLAM 系统,旨在解决先前基于光流的方法中缺乏几何一致性的问题……
Lifelong person Re-IDentification (L-ReID) 利用顺序收集的数据持续训练和更新 ReID 模型,关注整体性能……
真实的视觉模拟无处不在,但它们的创建需要计算时间、渲染以及专业的动画知识。Open-vocabulary 视觉效果...