[Paper] 奖励稀有:唯一性感知 RL 在 LLM 中的创意问题求解
强化学习(RL)已成为后训练大型语言模型(LLMs)的核心范式,尤其用于复杂推理任务,但它常常……
强化学习(RL)已成为后训练大型语言模型(LLMs)的核心范式,尤其用于复杂推理任务,但它常常……
我们研究一种去中心化协作请求问题,旨在优化边缘网络中时间敏感客户端的信息新鲜度,...
Chain-of-Thought (CoT) 推理已被证明能够通过鼓励逐步的中间推理来提升大语言模型的效果,近期的进展……
最近在 natural language processing 方面的发展凸显了文本作为生态学新兴数据来源的价值。文本资源携带着独特的信息,能够……
当前的上下文增强方法,例如 retrieval-augmented generation,对于解决知识密集型推理任务至关重要。然而,它们通常...
在 Text-to-SQL 任务中,现有的基于 LLM 的方法通常在提示中包含大量数据库模式,导致上下文长度变长并增加预填充延迟。
归因推理,即预测观察到的行为背后潜在意图的能力,是大型语言模型的一个关键但尚未充分研究的能力……
大型语言模型(LLMs)在对包含数千行数字、多个关联工作表以及嵌入…的企业级大型电子表格进行推理时面临困难。
自动化基础设施即代码(IaC)具有挑战性,且大型语言模型(LLMs)常常从自然语言(NL)生成错误的配置。We p...
Artificial Intelligence (AI) 系统在分类方面取得了良好的成功。然而,缺乏可解释性是一个真实且重大的挑战,尤其是……
我们对 Neural Coverage (NLC) 进行批判性综述,它是 Yuan 等人在 2023 年 ICSE 上提出的最先进的 DNN 覆盖准则。虽然 NLC 提出要满足 eigh…
强化学习(Reinforcement Learning,RL)仍然是机器学习中的核心优化框架。虽然 RL 代理可以收敛到最优解,但对…