· ai
【论文】Agentic Rubrics 作为 SWE 代理的上下文验证器
验证对改进智能体至关重要:它为 Reinforcement Learning 提供奖励信号,并通过 Test-Time Scaling 在推理阶段实现收益提升。
验证对改进智能体至关重要:它为 Reinforcement Learning 提供奖励信号,并通过 Test-Time Scaling 在推理阶段实现收益提升。
多代理大型语言模型(LLM)系统已成为复杂任务分解和协同问题解决的强大架构。然而,...
机器学习在 healthcare data 上的应用常常受到缺乏标准化和语义明确的表示的阻碍,导致…
病理基础模型(PFMs)已成为计算病理学的核心,旨在提供用于从全切片图像中提取特征的通用编码器……
我们介绍了 RFC Bench,这是一项用于在真实新闻环境下评估大型语言模型在金融误信息方面表现的基准。RFC Bench 在段落层面运行。
远程光电容积描记(rPPG)从普通摄像头捕获的面部视频中估计血容量脉冲(BVP)波形。虽然最近的深度模型 i...
语言模型在广泛的任务上已经变得非常有效,从数学问题求解到开放域问答。然而,它们仍然会犯错误,...
Direct Preference Optimization (DPO) 最近通过提升视觉保真度和文本对齐,改进了文本到视频(T2V)生成。然而,当前的方法…
音视频联合生成已经快速发展,但仍然存在重大挑战。非商业方法仍然存在音视频不同步的问题,...
类别不平衡显著降低分类性能,但其影响很少从统一的理论视角进行分析。我们提出一个原则……
数字化、网络化的医疗承诺更早的检测、精准治疗和持续护理;然而,它也扩大了隐私泄露的风险和…
随着世界模型在 Embodied AI 中获得动力,越来越多的工作探索使用 video foundation models 作为预测性世界模型,以用于下游 embo...