超越向量搜索:为何 GraphRAG 是 LLMs 的下一个前沿
超越向量搜索:为何 GraphRAG 是大语言模型的下一个前沿 在过去一年,增强大语言模型的行业标准一直是检索增强生成(Retrieval‑Augmented Generation)……
超越向量搜索:为何 GraphRAG 是大语言模型的下一个前沿 在过去一年,增强大语言模型的行业标准一直是检索增强生成(Retrieval‑Augmented Generation)……
测试时扩展(Test-time scaling,TTS)已成为通过在推理期间分配额外计算来提升大型语言模型性能的有效方法。H...
Context window expansion 通常被视为对 LLM 的一次直接能力升级,但我们发现它在多代理社会困境中系统性地失效……
虽然近期在推理时学习方面的进展提升了 LLM 在 Text-to-SQL 任务上的推理能力,但当前的解决方案仍然难以在 m...
将自由文本的心脏磁共振 (CMR) 报告转换为可审计的结构化数据仍然是队列构建、纵向策划以及……的瓶颈。
近期的字节级语言模型(LMs)在不依赖子词词汇表的情况下匹配了 token-level 模型的性能,但它们的实用性受到慢…
机制可解释性论文越来越多地使用因果词汇:circuits、mediators、causal abstraction、monosemanticity。此类主张需要明确的 i...
当 tool-calling agent 选择错误的工具时,失败在执行之前是不可见的:邮件被发送,会议被错过。Probing 12 instruction-t...
确保大型语言模型产生安全、符合政策的输出,需要能够在多个安全维度上扩展的实时内容审核。然而...
大型语言模型通常以单体系统的形式部署,即使应用只需要狭窄的能力子集,也必须使用完整模型,例如……
大型语言模型(LLMs)在解决科学和数学问题方面表现出强大的能力,但它们在生成有效且具有挑战性的……方面仍然困难。
许多部署必须在相关语言、行业或监管制度的标记 benchmark 出现之前,对候选 language models 的安全性进行比较。我们……
强化学习与可验证奖励(RLVR),由于确定性验证,已成为提升……推理能力的主导范式。
大型语言模型(LLMs)正日益被用作交互式代理,但由于当前……,优化它们在长期决策中的表现仍然困难。
我们引入递归代理优化(Recursive Agent Optimization,RAO),这是一种用于训练递归代理的强化学习方法:代理能够生成并委派子任务……
强化学习(RL)已被用于提升大语言模型(LLM)的推理能力,然而关于训练规模如何随任务难度……
大型语言模型(LLMs)驱动深度研究代理,将来自数百个网络来源的信息综合成带引用的报告,但这些引用无法……
我们提出了一种简化的 human-in-the-loop 工作流,用于第二语言 (L2) 韩语形态句法标注,通过利用两个 domain-adapted … 的一致性。
基于大语言模型(LLM)的多智能体系统(MAS)在处理复杂协作任务方面展现出前景,其中智能体通常通过…
大型语言模型在自回归范式下取得了显著成功,然而高质量的文本生成并不一定必须绑定在固定的左到右……
语法正确性和可能性是人类语言中不同的概念。预训练语言模型(LMs),作为语言的概率模型,拟合到最大……
背景:现有的 MRI LLM 基准主要依赖于复习书籍的多项选择题,而顶级专有模型已经在这些题目上得分很高,限制了辨别能力……
Self-consistency 通过为一个问题生成多个采样答案并测量它们的一致性来检测 hallucinations,但这需要重复解码和 ca...
我们展示了针对 SemEval-2026 第9任务:Multilingual Polarization Detection 的系统,这是一项跨越 22 种语言的二分类任务。我们的方法通过微调 …
我们引入文本语料库的 **Concept Field**:一种局部漂移场,具备点状不确定性,在句子嵌入空间中通过句子之间的差值进行估计。
我们对50个大型语言模型(LLMs)施行45份经过验证的心理测量问卷,以识别LLMs在心理测量上存在差异的维度。U...
我们识别并证明了支配长序列模型的一个基本权衡:没有任何模型能够同时实现 (i) 与序列长度无关的 per‑step computation……
临床 LLM 通常通过增大模型规模、上下文长度、检索复杂度或推理时计算量来进行扩展,隐含的期望是高...
深度搜索能力已成为前沿大型语言模型(LLM)代理的不可或缺的竞争力,然而它们的开发仍然主要由ind...
Reasoning-intensive retrieval 旨在呈现支持 downstream reasoning 的证据,而不仅仅是匹配 topical similarity。此能力正在…
急诊科分诊为患者分配一个决定治疗优先级的急性度评分,临床证据记录了持续存在的性别差异……
大型语言模型(LLMs)容易出现事实性幻觉,危及其在实际应用中的可靠性。现有的幻觉检测器主要……
AI生成的文本如今在各个领域和异构生成流水线中大规模产生,这使得对分布漂移的鲁棒性成为核心需求。
一些近期的 Transformer 架构让后期层能够访问在最早层计算得到的表示,这一做法的动机来源于观察到低层特征……
概念分析——提出 definitions 并通过 counterexamples 来细化——是 philosophical methodology 的核心。我们研究 language 是否…
大型语言模型可以在推理时通过提示或激活干预进行引导,但激活引导方法往往表现不如比较……
Speculative decoding 通过使用一个小的 draft 模型来提出候选 token,从而加速大规模语言模型(LLM)的推理,这些候选 token 将由更大的 target 模型进行验证……
Speculative decoding 通过使用一个小的 draft model 提出候选 token,以加速 large language model (LLM) 的推理,并由更大的 target model 验证……
继续解码过程 在上一篇文章中,我们从 transformer 生成了第一个输出词。翻译是正确的,但 decoder c...
在大型分析数据库上进行 Text-to-SQL 需要在复杂的模式中导航,解决模糊的查询,并将决策基于实际数据。大多数当前…
随着大语言模型(LLM)代理从孤立的工具使用者演变为协同团队,强化学习(RL)必须优化不仅是个体行为……
现代模糊测试工具越来越多地使用大型语言模型(LLMs)来生成结构化输入,但基于LLM的模糊测试对提示初始化和采样…
自动语音识别(ASR)系统在dysarthric和其他非典型语音上仍然脆弱。最近的音频‑语言模型提出了改进的可能性。
语言模型(LMs)正日益被用于高风险的多代理环境,在这些环境中,遵循指令和保持价值对齐至关重要。Mos...
来自大规模真实世界数据(RWD)的证据正日益用于监管评估和医疗决策。行政索赔…
视觉语言模型在眼科领域具有相当大的潜力,但其发展依赖于大规模、高质量的图像-文本数据集,而这些数据集仍然稀缺。
SemEval-2026 Task 10 专注于阴谋检测。具体而言,目标是检测 Reddit 评论是否表达了阴谋信念。我们的提交…
SemEval-2026 Task 9 专注于多语言极化检测。具体而言,它涵盖了对多语言、多文化和多事件的识别……