· ai
[Paper] 使用 Rubric Rewards 训练 AI 合科学家
AI co-scientists 正在成为帮助人类研究人员实现研究目标的工具。这些 AI co-scientists 的一个关键特性是其能力……
AI co-scientists 正在成为帮助人类研究人员实现研究目标的工具。这些 AI co-scientists 的一个关键特性是其能力……
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
在对话环境中识别大型语言模型(LLMs)的特定且往往复杂的行为对于其评估至关重要。近期工作提出…
我们引入 Iterated Bellman Calibration,这是一种简单、模型不可知、事后(post‑hoc)校准 off‑policy 价值预测的程序,适用于无限时域的 Markov …
我们提出了一种方法和数据集,用于在偏好监督下通过反馈驱动的改进链对语言模型进行微调。给定模型的响应,……
在专业环境中的自动语音识别(ASR)面临着现有基准低估的挑战:密集的领域术语、正式语体的变体……
大型语言模型(LLMs)正日益被考虑用于高影响力的工作流程,包括学术同行评审。然而,LLMs 易受到文档……
语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...
我们将长上下文语言建模定义为持续学习中的一个问题,而不是架构设计。在这种定义下,我们仅使用标准的 a...
我们提出了一种在线方法,用于同时保证多个分位水平的分位数预测的校准。α水平的分位数预测序列……
我们提出了一种训练高效的时间序列学习框架,将随机特征与受控微分方程(CDE)相结合。在这种方法……
内在图像分解是视觉理解的基础,因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...