· ai
[Paper] 在 Elo 排名审稿系统中建模 LLM 代理审稿人动态
在本研究中,我们使用真实的会议论文提交,探讨在 Elo 排名审稿系统中大型语言模型(LLM)代理审稿人的动态。Mu...
在本研究中,我们使用真实的会议论文提交,探讨在 Elo 排名审稿系统中大型语言模型(LLM)代理审稿人的动态。Mu...
大型语言模型在使用链式思考(Chain-of-Thought,CoT)时,往往能更有效地解决复杂推理任务,但代价是需要更长、低带宽的 token 序列。
我们引入了软件工程 AI 生产力指数(APEX‑SWE),这是一项用于评估前沿 AI 模型是否能够执行具有经济价值的……的基准。
将大型语言模型(LLMs)对齐,以服务于具有异质且可能冲突偏好的用户,是个性化和可信...的核心挑战。
强化学习(RL)已成为后训练大型语言模型(LLMs)的核心范式,尤其用于复杂推理任务,但它常常……
最近在 natural language processing 方面的发展凸显了文本作为生态学新兴数据来源的价值。文本资源携带着独特的信息,能够……
当前的上下文增强方法,例如 retrieval-augmented generation,对于解决知识密集型推理任务至关重要。然而,它们通常...
在 Text-to-SQL 任务中,现有的基于 LLM 的方法通常在提示中包含大量数据库模式,导致上下文长度变长并增加预填充延迟。
归因推理,即预测观察到的行为背后潜在意图的能力,是大型语言模型的一个关键但尚未充分研究的能力……
大型语言模型(LLMs)在对包含数千行数字、多个关联工作表以及嵌入…的企业级大型电子表格进行推理时面临困难。
随着大型语言模型(LLMs)在编程领域的发展,智能编程辅导系统受到广泛关注。如何……
对话代理正日益被用作心理治疗路径中的支持工具,对社会产生重大影响。特别是,同理心是关键…