· ai
[Paper] 逃离验证器:通过示例学习推理
训练大型语言模型(LLMs)进行推理通常依赖于带有任务特定验证器的强化学习(RL)。然而,许多现实世界的推理‑
训练大型语言模型(LLMs)进行推理通常依赖于带有任务特定验证器的强化学习(RL)。然而,许多现实世界的推理‑
量化对象姿态估计的不确定性对于稳健的控制和规划至关重要。尽管姿态估计是一个研究成熟的机器人问题……
近年来,具身智能中的 Vision-Language-Action(VLA)模型发展迅速。然而,现有的 adversarial attack 方法需要高成本……
大型多模态模型(LMM)因其强大的指令遵循能力和一致性,正日益被用作多模态评估系统中的评审者。本文提出 Multi-Crit 基准,用于测试 LMM 能否充当可靠的评审...
AI/ML 模型卡可以包含针对 AI/ML 模型与预期用途的基准评估,但在模型训练期间进行的一次性评估并不能……
我们介绍 EvilGenie,一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题,并创建一个环境,使得 agents …
动作质量评估(AQA)从动作视频中预测细粒度的执行分数,已广泛应用于体育、康复和技能评估……
AI模型在日常设备中的广泛应用凸显了一个关键挑战:预测错误会降低用户体验。虽然现有的解决方案……
优化大型语言模型(LLMs)以实现多轮对话结果仍然是一个重大挑战,尤其是在像 AI mar... 这样的目标导向设置中。
AI/ML模型已迅速崭露头角,作为解决先前未解决问题的创新,其放大人类偏见的意外后果……
更深的视觉Transformer往往表现不如较浅的模型,这挑战了常见的尺度假设。通过对ViT-...的系统性实证分析,...
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……