[Paper] 不确定性量化用于视觉对象姿态估计
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
更深的视觉Transformer往往表现不如较浅的模型,这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析,...
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
大型语言模型在生成创意文本方面的能力日益提升,然而大多数关于 AI 生成诗歌的研究仍聚焦于英语——一种占主导地位的语言……
最近,Freedman 和 Mulligan 的研究表明,浅层多层感知器在训练过程中会自发地形成 Kolmogorov‑Arnold 几何(KAG)结构,在 t...
大型语言模型(LLMs)最近在基于文本属性的图机器学习领域引发了革命,但将LLMs应用于图异常检测、...
算法已被估计在 2012 年至 2023 年间将 AI 训练 FLOP 效率提升了 22,000 倍 [Ho et al., 2024]。运行小规模的消融实验…
交互式分割模型,例如 Segment Anything Model(SAM),在自然图像上展示了显著的泛化能力,但表现不佳……
生成式 AI 的兴起使得在医疗、金融和公共政策等领域能够生成高保真度的合成表格数据,这不仅提升了数据可用性,还带来了诸多挑战和机遇。随着合成数据质量的不断提升,研究人员和从业者开始探索其在数据共享、隐私保护以及模型训练等方面的潜在应用。然而,合成数据的真实性、偏差以及对下游任务的影响仍是亟待解决的问题。本文综述了当前生成式 AI 在合成表格数据生成中的最新进展,重点讨论了模型架构、评估指标以及实际应用场景,并提出了未来研究的可能方向。
Large language models (LLMs) achieve state-of-the-art results across many natural language tasks, but their internal mechanisms remain difficult to interpret. I...
视频扩散模型在帧级保真度方面表现出色,但仍在运动连贯性、动态性和真实感方面存在困难,常常会产生抖动、重影或 …