NLP | EUNO.NEWS

排序:

2天前 · ai · - · -

超越向量搜索：为何 GraphRAG 是 LLMs 的下一个前沿

超越向量搜索：为何 GraphRAG 是大语言模型的下一个前沿在过去一年，增强大语言模型的行业标准一直是检索增强生成（Retrieval‑Augmented Generation）……

#LLM #Retrieval-Augmented Generation #GraphRAG #vector search #knowledge graphs #AI research #NLP
3天前 · ai · - · -

[Paper] LLMs 改进 LLMs：Agentic Discovery 用于 Test-Time Scaling

测试时扩展（Test-time scaling，TTS）已成为通过在推理期间分配额外计算来提升大型语言模型性能的有效方法。H...

#research #paper #ai #nlp
3天前 · ai · - · -

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

Context window expansion 通常被视为对 LLM 的一次直接能力升级，但我们发现它在多代理社会困境中系统性地失效……

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

虽然近期在推理时学习方面的进展提升了 LLM 在 Text-to-SQL 任务上的推理能力，但当前的解决方案仍然难以在 m...

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] 不确定性感知的结构化数据提取：通过 Distilled LLMs 从完整 CMR 报告

将自由文本的心脏磁共振 (CMR) 报告转换为可审计的结构化数据仍然是队列构建、纵向策划以及……的瓶颈。

#research #paper #ai #nlp
3天前 · ai · - · -

[Paper] 快速 Byte 潜在 Transformer

近期的字节级语言模型（LMs）在不依赖子词词汇表的情况下匹配了 token-level 模型的性能，但它们的实用性受到慢…

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张

机制可解释性论文越来越多地使用因果词汇：circuits、mediators、causal abstraction、monosemanticity。此类主张需要明确的 i...

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] Tool Calling 在语言模型中是线性可读且可引导的

当 tool-calling agent 选择错误的工具时，失败在执行之前是不可见的：邮件被发送，会议被错过。Probing 12 instruction-t...

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[论文] GLiGuard：基于 Schema 的分类用于 LLM 防护

确保大型语言模型产生安全、符合政策的输出，需要能够在多个安全维度上扩展的实时内容审核。然而...

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] EMO：预训练 Mixture of Experts 以实现涌现模块化

大型语言模型通常以单体系统的形式部署，即使应用只需要狭窄的能力子集，也必须使用完整模型，例如……

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] 基于验证器的困难问题生成用于数学推理

大型语言模型（LLMs）在解决科学和数学问题方面表现出强大的能力，但它们在生成有效且具有挑战性的……方面仍然困难。

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 当不存在基准时：在没有真实标签的情况下验证比较 LLM 安全评分

许多部署必须在相关语言、行业或监管制度的标记 benchmark 出现之前，对候选 language models 的安全性进行比较。我们……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 超越负向回滚：仅正向策略优化与隐式负梯度

强化学习与可验证奖励（RLVR），由于确定性验证，已成为提升……推理能力的主导范式。

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] StraTA：通过战略轨迹抽象激励代理式强化学习

大型语言模型（LLMs）正日益被用作交互式代理，但由于当前……，优化它们在长期决策中的表现仍然困难。

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 递归代理优化

我们引入递归代理优化（Recursive Agent Optimization，RAO），这是一种用于训练递归代理的强化学习方法：代理能够生成并委派子任务……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 强化学习能教会大语言模型进行长时程推理吗？表达能力是关键

强化学习（RL）已被用于提升大语言模型（LLM）的推理能力，然而关于训练规模如何随任务难度……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 被引用但未验证：LLM 深度研究代理中的来源归属解析与评估

大型语言模型（LLMs）驱动深度研究代理，将来自数百个网络来源的信息综合成带引用的报告，但这些引用无法……

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] Parser 在 L2 Korean UD 中的一致与分歧：对 human-in-the-loop 标注的启示

我们提出了一种简化的 human-in-the-loop 工作流，用于第二语言 (L2) 韩语形态句法标注，通过利用两个 domain-adapted … 的一致性。

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] MASPO：面向基于LLM的多智能体系统的联合提示优化

基于大语言模型（LLM）的多智能体系统（MAS）在处理复杂协作任务方面展现出前景，其中智能体通常通过…

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[论文] 连续潜在扩散语言模型

大型语言模型在自回归范式下取得了显著成功，然而高质量的文本生成并不一定必须绑定在固定的左到右……

#research #paper #ai #machine-learning #nlp #computer-vision
5天前 · ai · - · -

【论文】语言模型中语法性的隐式表示

语法正确性和可能性是人类语言中不同的概念。预训练语言模型（LMs），作为语言的概率模型，拟合到最大……

#research #paper #ai #nlp
5天前 · ai · - · -

[Paper] MRI-Eval：用于评估 LLM 在 MRI 物理和 GE 扫描仪操作知识方面表现的分层基准

背景：现有的 MRI LLM 基准主要依赖于复习书籍的多项选择题，而顶级专有模型已经在这些题目上得分很高，限制了辨别能力……

#research #paper #ai #nlp
5天前 · ai · - · -

[Paper] 首个 Token 知道：单次解码置信度用于幻觉检测

Self-consistency 通过为一个问题生成多个采样答案并测量它们的一致性来检测 hallucinations，但这需要重复解码和 ca...

#research #paper #ai #machine-learning #nlp
5天前 · ai · - · -

【论文】PSK 在 SemEval-2026 Task 9: 使用 Ensemble Gemma 模型进行多语言极化检测与合成数据增强

我们展示了针对 SemEval-2026 第9任务：Multilingual Polarization Detection 的系统，这是一项跨越 22 种语言的二分类任务。我们的方法通过微调 …

#research #paper #ai #machine-learning #nlp
5天前 · ai · - · -

[Paper] 文本语料库作为概念域：黑箱幻觉与新颖性测量

我们引入文本语料库的 **Concept Field**：一种局部漂移场，具备点状不确定性，在句子嵌入空间中通过句子之间的差值进行估计。

#research #paper #ai #machine-learning #nlp
5天前 · ai · - · -

[Paper] Pinocchio维度：经验的现象性作为LLM心理测量差异的主要轴线

我们对50个大型语言模型（LLMs）施行45份经过验证的心理测量问卷，以识别LLMs在心理测量上存在差异的维度。U...

#research #paper #ai #nlp
5天前 · ai · - · -

[Paper] 长上下文建模的不可能三角

我们识别并证明了支配长序列模型的一个基本权衡：没有任何模型能够同时实现 (i) 与序列长度无关的 per‑step computation……

#research #paper #ai #machine-learning #nlp
6天前 · ai · - · -

[Paper] 安全性和准确性在临床大语言模型中遵循不同的尺度定律

临床 LLM 通常通过增大模型规模、上下文长度、检索复杂度或推理时计算量来进行扩展，隐含的期望是高...

#research #paper #ai #machine-learning #nlp
6天前 · ai · - · -

[Paper] OpenSeeker-v2：推动搜索代理在信息丰富且高难度轨迹上的极限

深度搜索能力已成为前沿大型语言模型（LLM）代理的不可或缺的竞争力，然而它们的开发仍然主要由ind...

#research #paper #ai #machine-learning #nlp
6天前 · ai · - · -

[Paper] 重新思考推理密集型检索：评估与提升检索器在Agentic搜索系统中的表现

Reasoning-intensive retrieval 旨在呈现支持 downstream reasoning 的证据，而不仅仅是匹配 topical similarity。此能力正在…

#research #paper #ai #nlp
6天前 · ai · - · -

[Paper] EQUITRIAGE：基于LLM的急诊科分诊性别偏见公平性审计

急诊科分诊为患者分配一个决定治疗优先级的急性度评分，临床证据记录了持续存在的性别差异……

#research #paper #ai #nlp
6天前 · ai · - · -

[Paper] 逻辑一致性作为桥梁：通过响应与自我判断之间的标签约束建模提升 LLM 幻觉检测

大型语言模型（LLMs）容易出现事实性幻觉，危及其在实际应用中的可靠性。现有的幻觉检测器主要……

#research #paper #ai #nlp
6天前 · ai · - · -

[Paper] 特征增强的 Transformer 用于跨领域和生成器的稳健 AI 文本检测

AI生成的文本如今在各个领域和异构生成流水线中大规模产生，这使得对分布漂移的鲁棒性成为核心需求。

#research #paper #ai #machine-learning #nlp
6天前 · ai · - · -

[Paper] 具选择性访问早期表示的 Transformer

一些近期的 Transformer 架构让后期层能够访问在最早层计算得到的表示，这一做法的动机来源于观察到低层特征……

#research #paper #ai #machine-learning #nlp
6天前 · ai · - · -

[Paper] 反例游戏：迭代概念分析与语言模型中的修复

概念分析——提出 definitions 并通过 counterexamples 来细化——是 philosophical methodology 的核心。我们研究 language 是否…

#research #paper #ai #machine-learning #nlp
6天前 · ai · - · -

[Paper] 像 LLM 那样引导：模仿提示的激活引导

大型语言模型可以在推理时通过提示或激活干预进行引导，但激活引导方法往往表现不如比较……

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

[Paper] SpecKV：自适应投机解码与压缩感知 Gamma 选择

Speculative decoding 通过使用一个小的 draft 模型来提出候选 token，从而加速大规模语言模型（LLM）的推理，这些候选 token 将由更大的 target 模型进行验证……

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

[Paper] SpecKV：自适应投机解码与压缩感知 Gamma 选择

Speculative decoding 通过使用一个小的 draft model 提出候选 token，以加速 large language model (LLM) 的推理，并由更大的 target model 验证……

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

理解 Transformer 第18部分：完成解码过程

继续解码过程在上一篇文章中，我们从 transformer 生成了第一个输出词。翻译是正确的，但 decoder c...

#transformers #decoder #sequence-to-sequence #attention #machine-translation #deep-learning #NLP
1周前 · ai · - · -

[Paper] FlexSQL：灵活的探索与执行打造更好的 Text-to-SQL 代理

在大型分析数据库上进行 Text-to-SQL 需要在复杂的模式中导航，解决模糊的查询，并将决策基于实际数据。大多数当前…

#research #paper #ai #nlp
1周前 · ai · - · -

[Paper] 通过编排轨迹进行基于LLM的多智能体系统的强化学习

随着大语言模型（LLM）代理从孤立的工具使用者演变为协同团队，强化学习（RL）必须优化不仅是个体行为……

#research #paper #ai #nlp
1周前 · ai · - · -

[Paper] FunFuzz：基于LLM的进化模糊测试框架

现代模糊测试工具越来越多地使用大型语言模型（LLMs）来生成结构化输入，但基于LLM的模糊测试对提示初始化和采样…

#research #paper #ai #nlp
1周前 · ai · - · -

[Paper] 当 Audio-Language Models 未能利用 Multimodal Context 进行 Dysarthric Speech Recognition 时

自动语音识别（ASR）系统在dysarthric和其他非典型语音上仍然脆弱。最近的音频‑语言模型提出了改进的可能性。

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

[Paper] 通过隐式特征引导缓解 Misalignment Contagion

语言模型（LMs）正日益被用于高风险的多代理环境，在这些环境中，遵循指令和保持价值对齐至关重要。Mos...

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

[Paper] Foundation Models 解锁 Nationwide Medical Claims 中的 Real-World Evidence

来自大规模真实世界数据（RWD）的证据正日益用于监管评估和医疗决策。行政索赔…

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

[Paper] PubMed-Ophtha：用于在科学文献上训练眼科视觉语言模型的开放资源

视觉语言模型在眼科领域具有相当大的潜力，但其发展依赖于大规模、高质量的图像-文本数据集，而这些数据集仍然稀缺。

#research #paper #ai #nlp #computer-vision
1周前 · ai · - · -

[Paper] mdok-style 在 SemEval-2026 任务10：微调 LLM 进行阴谋检测

SemEval-2026 Task 10 专注于阴谋检测。具体而言，目标是检测 Reddit 评论是否表达了阴谋信念。我们的提交…

#research #paper #ai #machine-learning #nlp
1周前 · ai · - · -

[Paper] mdok-style 在 SemEval-2026 第9任务：Finetuning LLMs 用于多语言极化检测

SemEval-2026 Task 9 专注于多语言极化检测。具体而言，它涵盖了对多语言、多文化和多事件的识别……

#research #paper #ai #machine-learning #nlp

Newer posts

Older posts