[论文] Multi-Crit:在多元标准遵循上的多模态评审基准
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
动作质量评估(AQA)从动作视频中预测细粒度的执行分数,已广泛应用于体育、康复和技能评估……
更深的视觉Transformer往往表现不如较浅的模型,这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析,...
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
尽管图卷积网络(GCNs)在基于骨架的动作识别中取得了显著成功,但它们的性能往往依赖于大量的实验室…
交互式分割模型,例如 Segment Anything Model(SAM),在自然图像上展示了显著的泛化能力,但表现不佳……
视频扩散模型在帧级保真度方面表现出色,但仍在运动连贯性、动态性和真实感方面存在困难,常常会产生抖动、重影或 …
对抗性攻击对基于学习的 3D 点云模型构成了重大威胁,严重削弱了它们在安全敏感应用中的可靠性。
Illumination inconsistency 是多视角 3D 重建中的一个根本性挑战。阳光方向、云层覆盖以及阴影的变化会破坏一致性……
Reward feedback learning(ReFL)已被证明在将图像生成与人类偏好对齐方面有效。然而,将其扩展到视频生成面临…
Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制,因为该语言本身资源极其匮乏。标准的句子级数据集创建……
阿尔茨海默病是一种导致认知功能下降的衰弱性疾病。及时识别该疾病对于疾病的早期干预和治疗方案的开发至关重要。