[Paper] 当 LLMs 停止遵循步骤:语言模型中过程执行的诊断性研究
大型语言模型(LLMs)常在 reasoning benchmarks 上取得强劲表现,但仅凭最终答案的准确率并不能显示它们是否忠实地执行……
大型语言模型(LLMs)常在 reasoning benchmarks 上取得强劲表现,但仅凭最终答案的准确率并不能显示它们是否忠实地执行……
人类通过执行有针对性的计划来解决问题,但大型语言模型(LLMs)在结构化工作流执行方面仍然不可靠。我们提出 RunAgent,一个 …
背景:面向患者的医学聊天机器人基于检索增强生成(retrieval-augmented generation,RAG),正日益被推广,以提供可获取、基于事实的健康信息……
用于多语言语音克隆的speaker encoder应当对同一说话人保持一致的处理,无论音频使用哪种script。Off-the-shelf…
在线平台、影响行动和政治话语中的语言常常引导一种混合的亲社会情感(例如,倡导、乐于助人、合作……)。
大型语言模型(LLMs)正日益应用于金融场景。然而,它们可能产生有害输出,包括促成非法活动……
大型语言模型(LLM)代理需要长期用户记忆以实现一致的个性化,但受限的上下文窗口阻碍了对不断变化偏好的跟踪。
强化学习(RL)已成为对大型语言模型(LLMs)进行后训练,以实现推理、代理能力和对齐的关键。成功……
现实的长期生产力工作在很大程度上受用户特定的计算机环境的影响,其中大量工作上下文被存储和组织……
Surprisal theory 将人类处理努力与即将出现的语言单位的可预测性联系起来,但实证研究常常对单位的概念阐述不足……
大型多模态模型(LMM)标准的后训练方案是在精心挑选的示例上进行监督微调(SFT),随后进行强化学习(RL)……
关于课堂互动的研究长期以来在大规模观察和深入的民族志工作之间划分。我们提出一个框架来映射这种方法……
大型语言模型(LLMs)已经推动了表格问答的进展,在这种情况下,大多数查询可以通过提取信息或简单聚合来回答。然而……
最近的研究表明,将庞大的 English web corpora 过滤为高质量子集可以显著提升训练效率。然而,对于高分辨率…
大量的元科学研究和其他倡议已经开始监测开放科学实践的普及程度,当更重要的是理解“d...”时。
大型语言模型(LLMs)在城市分析中日益被用作人类感知的代理,但尚不清楚 persona prompting 是否会产生 …
句子的句法结构可以表示为一棵树,树的边表示词与词之间的句法依存关系。当这种结构呈星形时,它……
Diffusion large language models (dLLMs) 提供并行解码和双向上下文,但最先进的 dLLMs 需要数十亿参数才能竞争……
小型语言模型(SLMs)在可扩展部署方面提供了计算效率,但它们的推理能力往往不及更大的模型。
Claw-style 环境支持对本地文件、工具和持久工作区状态的多步骤工作流。然而,围绕这些环境的可扩展开发……
患者门户现在让个人直接访问他们的电子健康记录(EHR),但仅有访问并不能确保患者理解或采取行动……
大型语言模型(LLMs)在预训练阶段通过下一个标记预测获取了大部分事实知识。随后阶段的后训练……
许多已记录的数千种语言共享常见的特征组合,形成了一个从类型学上非常罕见的(例如,object‑verb‑subject……)的光谱。
语言扩散模型在何时会记忆其训练数据,如何定量评估其真实的生成范式?我们通过展示…
我们介绍了 HalluCiteChecker,一个用于检测和验证科学论文中 hallucinated citations 的工具包。虽然 AI 助手技术已经改变…
本文研究了利用仅文本数据提升语音识别效率的方法,重点关注能够实现更快的编码器主导模型。
递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …
现实世界的数据可视化(DV)需要本土环境的落地、跨平台的演进以及主动的意图对齐。然而,现有的基准 o...
分布式和神经方法在自然语言语义学中几乎完全建立在传统线性代数之上:vectors, matrices, tensors……
基于偏好的对齐方法,最突出的是人类反馈强化学习(Reinforcement Learning with Human Feedback,RLHF),利用人类标注者的判断来塑造大型语言模型……
大型语言模型(LLMs)正越来越多地用于情感敏感的人机交互应用,但对于情感识别在内部是如何实现的知之甚少。
机器生成文本(MGT)检测需要在不同生成模型之间识别结构上不变的信号,而不是依赖于特定模型的指纹……
传统的损失函数,包括 cross-entropy、contrastive、triplet 和 supervised contrastive 损失,用于微调预训练语言模型……
Patient simulators 正在 mental health training 中获得关注,因为它们提供了对复杂且敏感的 patient interactions 的可扩展曝光。Simulating depre…
印尼电商平台的评论将标准词汇与俚语、地区借词、数字简写和 emoji 混合在一起,使得 lexicon-based sentiment tools 难以……
将高效的Transformer组件与线性序列建模块相结合的混合序列模型是对纯Transformer的有前景的替代方案,但……
大型语言模型(LLMs)正被越来越多地部署,但它们的输出对用户在提问时的常规、非对抗性表述变化极其敏感……
基于大语言模型(LLMs)的应用,例如多代理仿真,需要代理之间的人口多样性。我们发现了一种普遍的失败……
本文研究了信息来源的可信度是否会影响土耳其语的证据形态学,以及大型语言模型(LLMs)是否能够捕捉这种敏感性。我们……
针对韩国天气预报员的实用(multimodal)large language model助手的开发受到缺乏多维、exper…的阻碍。
本地小语言模型(SLMs)承诺为移动用户提供完全离线、私密的 AI 体验(无需云端依赖,数据不离开设备)。但是否……
LLM-guided evolutionary search 已成为自动算法发现的有前景范式,然而大多数系统主要通过 e...
引言 还记得在2020/2021年OpenAI发布GPT‑2吗?要了解是什么让它成为可能,我们需要看看使其实现的技术:G...
大型语言模型(LLMs)正日益用于从日常使用到高风险企业和政府应用的文本生成任务,包括……
我们调查仅在现代形态数据上训练的神经模型是否能够恢复与历史重建一致的跨语言词汇结构。
我们提出了一种方法,通过将跨语言迁移学习与无监督聚类相结合,来发现低资源班图语言的形态特征。
虽然冗长的、明确的思维链(chains-of-thought,CoT)已被证明在复杂推理任务上有效,但在推理时生成它们成本很高。非语言推理……
在大型语料库中选择一个小而高质量的子集用于微调变得越来越重要,因为语料库规模已增长到数千万个数据点,使得 …