[Paper] 风格化合成增强进一步提升对腐蚀鲁棒性
本文提出了一种训练数据增强流水线,将合成图像数据与神经风格迁移相结合,以解决其脆弱性。
本文提出了一种训练数据增强流水线,将合成图像数据与神经风格迁移相结合,以解决其脆弱性。
与扩展 LLMs 的 context window 相关的计算和内存开销严重限制了它们的可扩展性。一个值得注意的解决方案是 vision-te…
工作记忆使大脑能够整合瞬时信息,以实现快速决策。人工网络通常通过 recurrent 或 par...
引言 数据标注是人工智能的基础过程,使机器能够从真实世界的数据中学习。它涉及添加意义……
AI 背景移除工具乍一看可能像魔法一样。你上传一张图片,点击一个按钮,背景就消失了。在这简单的交互背后……
使用 Metal 渲染摄像头视频,无需 AVCaptureVideoPreviewLayer。在本教程中,我们将直接在屏幕上渲染摄像头视频,使用…
流式视频生成的核心挑战是保持长上下文中的内容一致性,这对内存设计提出了很高的要求。Mo...
本论文并未提出新方法,而是为视频时间定位(VTG)建立了一个直接、渐进且必不可少的基线,……
非参数量化因其在参数上的高效性以及对大码本的可扩展性而受到广泛关注。本文中,我们提出了一种 uni...
我们介绍了 CRISP,这是一种从单目视频中恢复可模拟的人体运动和场景几何的方法。先前关于人‑场景联合重建的工作…
近年来,3D 生成建模的最新进展显著提升了生成的真实感,但该领域仍受到现有表示方式的限制,……
Video foundation models 生成视觉上逼真且时间上连贯的内容,但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …
我们提出 VASA-3D,一种音频驱动的单次拍摄 3D 头部化身生成器。本研究解决了两个主要挑战:捕捉细微的表情细节 p...
我们介绍 ART,Articulated Reconstruction Transformer —— 一个类别无关的前馈模型,能够仅凭 … 重建完整的 3D 铰接对象。
实现真正的自适应具身智能需要代理不仅通过模仿静态示范来学习,而是通过在环境中持续改进来不断提升。
视觉情感分析(VSA)是一项具有挑战性的任务,因为情感显著的图像种类繁多,并且获取足够的……
及时且准确的淋巴瘤诊断对于指导癌症治疗至关重要。标准诊断实践结合了苏木精-伊红(HE)染色的全…
本文介绍了 JMMMU‑Pro,一个基于图像的日语多学科多模态理解基准,以及 Vibe Benchmark Construction,一个可扩展的…
文章链接: https://alpr.watch/ 评论链接: https://news.ycombinator.com/item?id=46290916 积分: 224 评论数: 114
在刚刚发布其 Olmo 基础模型最新版本后,Allen Institute for AI(Ai2)于周二推出了其开源视频模型 Molmo 2,……
AlphaFlow 为 MeanFlow 图像模型提供了更平滑的训练计划,减少了其两个目标之间的冲突,加速了学习。概述……
视频扩散模型已经彻底改变了生成视频合成,但它们不够精确、速度慢,并且在生成过程中可能不透明——让用户处于……
现代用于3D点云处理的神经架构同时包含卷积层和attention块,但如何最佳组合它们仍未明确……
视觉分词器(例如 VAEs)中的潜在空间质量对现代生成模型至关重要。然而,标准的基于重构的训练……