[Paper] 使用 Rubric Rewards 训练 AI 合科学家
AI co-scientists 正在成为帮助人类研究人员实现研究目标的工具。这些 AI co-scientists 的一个关键特性是其能力……
3296 posts from this source
AI co-scientists 正在成为帮助人类研究人员实现研究目标的工具。这些 AI co-scientists 的一个关键特性是其能力……
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
在对话环境中识别大型语言模型(LLMs)的特定且往往复杂的行为对于其评估至关重要。近期工作提出…
我们引入 Iterated Bellman Calibration,这是一种简单、模型不可知、事后(post‑hoc)校准 off‑policy 价值预测的程序,适用于无限时域的 Markov …
我们提出了一种方法和数据集,用于在偏好监督下通过反馈驱动的改进链对语言模型进行微调。给定模型的响应,……
在专业环境中的自动语音识别(ASR)面临着现有基准低估的挑战:密集的领域术语、正式语体的变体……
大型语言模型(LLMs)正日益被考虑用于高影响力的工作流程,包括学术同行评审。然而,LLMs 易受到文档……
语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...
我们将长上下文语言建模定义为持续学习中的一个问题,而不是架构设计。在这种定义下,我们仅使用标准的 a...
我们提出了一种在线方法,用于同时保证多个分位水平的分位数预测的校准。α水平的分位数预测序列……
我们提出了一种训练高效的时间序列学习框架,将随机特征与受控微分方程(CDE)相结合。在这种方法……
内在图像分解是视觉理解的基础,因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...
本文的主要研究问题集中在定义在研究关系 b 时所需的或适当的上下文量。
人类通过视觉观察学习运动,先解释视觉内容再模仿动作。然而,state-of-the-art humanoid locomotion sy...
Information-seeking (IS) agents 已在广泛且深入的搜索任务中取得了强劲表现,但它们的工具使用仍然主要局限于 …
Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展;然而,它们往往缺乏细粒度的跨模态理解……
我们提出了一种同时近似score function及其导数的理论,使得能够处理具有低维结构的数据分布。
对健康信息的追求已经让网络充斥着消费者的健康相关问题。一般来说,消费者使用过于描述性和外围的……
时空对齐对于自动驾驶(AD)中端到端(E2E)感知的时间建模至关重要,能够提供有价值的结构和纹理……
一对一辅导被广泛认为是个性化教育的金标准,但其规模化成本仍然高得难以承受。为了评估基因……
大型语言模型(LLMs)已经展示出强大的推理和编码能力,但它们在推广到真实世界的软件工程(SWE)问题时仍然面临困难……
生成模型正日益被用于3D视觉,以合成新形状,但仍不清楚它们的生成是否依赖于记忆训练数据。
大多数因果发现方法从观测数据中恢复表示 Markov 等价类的 completed partially directed acyclic graph。最近的工作 …
我们提出 NeuroSPICE,这是一种基于物理信息的神经网络(PINN)框架,用于器件和电路仿真。不同于传统的 SPICE,它依赖于时间……
分布漂移是现实机器学习的决定性挑战。主流范式——无监督领域适应(Unsupervised Domain Adaptation,UDA)——强制特征不变性……
让大型语言模型(LLMs)可靠地调用外部工具仍然是自主代理的关键瓶颈。现有方法在 thr...
近年来,embedded systems 的复杂性和规模,尤其是在快速发展的 autonomous driving systems 领域,显著增加。
大型语言模型(LLMs)在生成教育问题和练习方面具有显著潜力,使教育者能够创建大规模的学习材料……
胰腺肿瘤的早期检测是一个主要的临床难题,主要原因在于肿瘤往往在对比度极低的边缘出现。
提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……
近年来,自动驾驶汽车因被视为解决各种社会问题的方案之一而受到关注。然而,自动驾驶软件需要……
将多模态大语言模型(MLLMs)整合到化学领域有望彻底改变科学发现的方式,但它们理解 d...
锁集通常用于死锁的动态分析。标准的每线程锁集构建仅考虑在同一线程中获取的锁,b...
大型语言模型(LLMs)已经展示出令人印象深刻的推理能力,因而被采用于医疗、法律等高风险领域,……
现代云架构需要自适应能力来管理动态的运行条件。然而,现有的解决方案往往施加集中式控制……
[Context and Motivation] 全球能源消耗近年来稳步增长,数据中心已成为主要贡献者。这一增长 i...
Adaptable TeaStore 最近被提出作为可适配微服务架构的参考模型。它包括不同的配置,以及……
在设计新的 Web 应用程序时,开发者必须应对相对于其所依赖资源的各种约束:software、hardware、network……
Adaptable TeaStore 规范提供了一个基于微服务的案例研究,用于通过控制回路实现自适应。我们认为实现…
本文介绍了如何将现有的离线性能优化框架应用于微服务应用程序的 Release 阶段的 D...
在本文中,我们分享了十余年在 Software Engineering (SE) 课程中教授软件质量方面的经验教训,其中的重点……
我们介绍了 Bitcoin-IPC,这是一套软件栈和协议,旨在扩展 Bitcoin,使其帮助其成为通用的交换媒介(Medium of Exchange,MoE),通过实现每...
一致性哈希是分布式系统的基础,但环形方案除非使用大量虚拟节点,否则可能出现高峰值与平均负载比率。
Kubernetes 提供原生的自动伸缩机制,包括 Horizontal Pod Autoscaler、Vertical Pod Autoscaler 和节点级自动伸缩器,以实现弹性……
大型语言模型(LLM)代理虽然在数字领域表现出色,但由于在形成……方面的挑战,它们在物理世界部署方面存在显著差距。
我们研究规划与验证社区中的两个问题之间的关联:Conformant planning 和 hyperproperties 的 model-checking。Conformant pl...
深度神经网络已经加速了 inverse-kinematics (IK) 推理,使得低成本机械臂能够实时执行复杂轨迹,...
在边缘设备上部署大规模语言模型(LLMs)具有挑战性,因为它们的内存和电力资源有限。仅云推理可以降低设备负担……