[Paper] SymPyBench:用于科学推理的可执行 Python 代码的动态基准
我们介绍了一个大规模的 synthetic benchmark,包含 15,045 道大学水平的 physics problems(90/10% train/test split)。每道题目都是完全 parameterized 的,...
我们介绍了一个大规模的 synthetic benchmark,包含 15,045 道大学水平的 physics problems(90/10% train/test split)。每道题目都是完全 parameterized 的,...
由大型语言模型驱动的 AI 代理正日益作为云服务部署,它们能够自主访问敏感数据、调用外部工具,并且……
在实际应用中,不完整的数据很常见。传感器会失效,记录可能不一致,并且从不同来源收集的数据集往往在规模上有所不同……
美国人口普查局提供的个人公共使用微观数据样本(PUMS)已经可用数十年。然而,计算能力的大幅提升……
资源分配仍然是 NP-hard 的,因为其组合复杂性。虽然 deep reinforcement learning (DRL) 方法,例如 Rainbow Deep Q-Network (DQN),...
Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……
最优实验设计是统计学中的经典主题,拥有众多研究深入的问题、应用和解决方案。我们研究的设计问题是 p...
常见的可解释人工智能(XAI)在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性:saliency maps……
在本文中,我们提出了一种 synthesis pipeline 和 dataset,用于 traffic sign recognition 任务的训练/测试数据,结合了 d... 的优势。
我们提出了一种用于模拟汽车飞行时间(ToF)LiDAR的解析模型,包含光斑蔓延、回波脉冲宽度和环境光,并包括步骤……
深度神经网络在实际部署时常因 distribution shift 而失效,这成为构建安全可靠系统的关键障碍。An eme...
面部识别已成为一种广泛使用的身份验证和识别方法,应用于安全访问和寻找失踪人员。它的…