[论文] 注意力引导的 Patch-Wise 稀疏对抗攻击在 Vision-Language-Action 模型上
近年来,具身智能中的 Vision-Language-Action(VLA)模型发展迅速。然而,现有的 adversarial attack 方法需要高成本……
近年来,具身智能中的 Vision-Language-Action(VLA)模型发展迅速。然而,现有的 adversarial attack 方法需要高成本……
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
AI/ML 模型卡可以包含针对 AI/ML 模型与预期用途的基准评估,但在模型训练期间进行的一次性评估并不能……
我们介绍 EvilGenie,一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题,并创建一个环境,使得 agents …
动作质量评估(AQA)从动作视频中预测细粒度的执行分数,已广泛应用于体育、康复和技能评估……
AI模型在日常设备中的广泛应用凸显了一个关键挑战:预测错误会降低用户体验。虽然现有的解决方案……
优化大型语言模型(LLMs)以实现多轮对话结果仍然是一个重大挑战,尤其是在像 AI mar... 这样的目标导向设置中。
AI/ML模型已迅速崭露头角,作为解决先前未解决问题的创新,其放大人类偏见的意外后果……
更深的视觉Transformer往往表现不如较浅的模型,这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析,...
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
大型语言模型在生成创意文本方面的能力日益提升,然而大多数关于 AI 生成诗歌的研究仍聚焦于英语——一种占主导地位的语言……
最近,Freedman 和 Mulligan 的研究表明,浅层多层感知器在训练过程中会自发地形成 Kolmogorov‑Arnold 几何(KAG)结构,在 t...