[Paper] 不确定性量化用于视觉对象姿态估计
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……
4797 posts from this source
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……
近年来,具身智能中的 Vision-Language-Action(VLA)模型发展迅速。然而,现有的 adversarial attack 方法需要高成本……
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
AI/ML 模型卡可以包含针对 AI/ML 模型与预期用途的基准评估,但在模型训练期间进行的一次性评估并不能……
我们介绍 EvilGenie,一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题,并创建一个环境,使得 agents …
动作质量评估(AQA)从动作视频中预测细粒度的执行分数,已广泛应用于体育、康复和技能评估……
AI模型在日常设备中的广泛应用凸显了一个关键挑战:预测错误会降低用户体验。虽然现有的解决方案……
优化大型语言模型(LLMs)以实现多轮对话结果仍然是一个重大挑战,尤其是在像 AI mar... 这样的目标导向设置中。
AI/ML模型已迅速崭露头角,作为解决先前未解决问题的创新,其放大人类偏见的意外后果……
更深的视觉Transformer往往表现不如较浅的模型,这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析,...
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
大型语言模型在生成创意文本方面的能力日益提升,然而大多数关于 AI 生成诗歌的研究仍聚焦于英语——一种占主导地位的语言……
最近,Freedman 和 Mulligan 的研究表明,浅层多层感知器在训练过程中会自发地形成 Kolmogorov‑Arnold 几何(KAG)结构,在 t...
尽管图卷积网络(GCNs)在基于骨架的动作识别中取得了显著成功,但它们的性能往往依赖于大量的实验室…
大型语言模型(LLMs)最近在基于文本属性的图机器学习领域引发了革命,但将LLMs应用于图异常检测、...
算法已被估计在 2012 年至 2023 年间将 AI 训练 FLOP 效率提升了 22,000 倍 [Ho et al., 2024]。运行小规模的消融实验…
在大型语言模型(LLMs)预训练中加入metadata最近被视为一种加速训练的有前景的方法。然而,以前的工作强调……
现代云数据库将扩展呈现为二元决策:通过添加节点进行 scale-out,或通过增加每节点资源进行 scale-up。这种单维视角 i...
大型语言模型(LLMs)在广泛任务中展现出卓越的能力,但其内部机制仍然大多不透明。在本文中,w...
处理缺失数据是数据驱动分析中的核心挑战。现代 imputation 方法不仅旨在实现精确重建,而且在 … 方面也有所不同。
交互式分割模型,例如 Segment Anything Model(SAM),在自然图像上展示了显著的泛化能力,但表现不佳……
生成式 AI 的兴起使得在医疗、金融和公共政策等领域能够生成高保真度的合成表格数据,这不仅提升了数据可用性,还带来了诸多挑战和机遇。随着合成数据质量的不断提升,研究人员和从业者开始探索其在数据共享、隐私保护以及模型训练等方面的潜在应用。然而,合成数据的真实性、偏差以及对下游任务的影响仍是亟待解决的问题。本文综述了当前生成式 AI 在合成表格数据生成中的最新进展,重点讨论了模型架构、评估指标以及实际应用场景,并提出了未来研究的可能方向。
Large language models (LLMs) achieve state-of-the-art results across many natural language tasks, but their internal mechanisms remain difficult to interpret. I...
视频扩散模型在帧级保真度方面表现出色,但仍在运动连贯性、动态性和真实感方面存在困难,常常会产生抖动、重影或 …
大型语言模型(LLMs)在许多基准测试中取得了令人印象深刻的结果,但它们在规划和有状态推理方面的能力仍不明确。我们研究了……
智能电网是经典电力基础设施与先进通信网络和智能控制的融合,旨在创建一个网络物理环境……
端到端(E2E)自动驾驶模型在开放环评估中表现出强大的性能,但往往会出现级联错误和泛化能力差的问题……
口腔癌在全球范围内非常常见,且大多在晚期才被诊断,因为它在视觉上与良性、癌前以及恶性病变非常相似。
Latent reasoning 代表了 Transformer 语言模型的一个新发展,与 chain-of-thought 相比,它在压缩推理长度方面显示出潜力。
同步音视频内容的合成是生成式 AI 的关键挑战,开源模型在实现稳健的音视频对齐方面面临困难……
高质量的 AI 生成音频的可用性带来了安全挑战,例如错误信息宣传活动和语音克隆欺诈。针对…的关键防御是…
自动标志点检测为医疗专业人员提供了一种高效的方法,以利用术中了解患者的解剖结构和定位。
对抗性攻击对基于学习的 3D 点云模型构成了重大威胁,严重削弱了它们在安全敏感应用中的可靠性。
Large language model (LLM)-based multi-agent systems 已经成为一种强大的范式,使 autonomous agents 能够解决复杂任务。随着这些系统…
在一个以快速技术进步和复杂全球挑战为特征的时代,responsible foresight 已成为政策制定者的关键框架……
如果语言模型在专业情境中无法可靠地披露其 AI 身份,用户就无法信任其能力边界。本研究考察了自我透明…
大型语言模型(LLMs)在回答改写后的问题时常表现出不一致的行为,这表明它们更依赖于表层模式而不是…
环肽是针对细胞内位点的有前景的模态;然而,细胞膜渗透性仍然是一个关键瓶颈,并因有限的……而加剧。
Illumination inconsistency 是多视角 3D 重建中的一个根本性挑战。阳光方向、云层覆盖以及阴影的变化会破坏一致性……
本研究提出了一种基于多尺度时间对齐网络(MSTAN)的风险预测方法,以应对时间不规则性、采样...
我们考虑 strategic classification 问题,其中部署 classifier 的行为会导致 strategic behaviour,从而在 s 上产生 distribution shift ...
Vision Language Action 模型通过利用大规模预训练的视觉和语言表征,显著推动了通用机器人操作的进步。
区块链安全受到自私挖矿的威胁,自私挖矿是指矿工(运营者)偏离协议以增加其收入。自私挖矿会加剧……
Human activity recognition (HAR) from inertial sensors is essential for ubiquitous computing, mobile health, and ambient intelligence. Conventional deep models ...
Reward feedback learning(ReFL)已被证明在将图像生成与人类偏好对齐方面有效。然而,将其扩展到视频生成面临…
现实世界的数据,例如在气候应用中,通常由空间网格化时间序列数据或具有类似结构的数据组成。虽然其底层…
多层快速多极算法(MLFMA)中的近场(P2P)算子由于内存局部性差,在 GPU 上成为性能瓶颈。本文工作…
Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制,因为该语言本身资源极其匮乏。标准的句子级数据集创建……