[论文] QuantClaw:在关键位置的精度用于 OpenClaw
自主代理系统(如 OpenClaw)由于长上下文输入和多轮推理,引入了显著的效率挑战。这导致了 prohi...
自主代理系统(如 OpenClaw)由于长上下文输入和多轮推理,引入了显著的效率挑战。这导致了 prohi...
大型语言模型(LLMs)能够进行良好的推理,但在长且噪声较多的上下文中,关键证据往往被埋藏,从而被忽略。我们提出了 HiLight,一种 Evidence Emph…
自动语音识别(ASR)传统上使用词错误率(WER)进行评估,这一指标对意义不敏感。基于嵌入的语义度量…
随着前沿语言模型在静态数学基准上取得接近天花板的表现,现有评估手段日益难以区分模型之间的差异。
尽管大型视觉语言模型(LVLMs)的能力取得了令人印象深刻的进展,这些系统仍然容易出现幻觉,即输出是 n...
随着模型规模的持续增长,参数高效微调已成为全微调的强大替代方案。虽然 LoRA 在 …
对立法行为的分析常常依赖投票记录,忽视了政治演讲中丰富的语义和修辞内容。在本文中,我们提出…
事件抽取从文本中识别事件的核心要素。它支持事件理解和分析,这对于诸如知情决策等任务至关重要。
实时检测和缓解技术异常对于大规模云原生服务至关重要,因为即使几分钟的停机也可能导致 massi...
Event extraction 对于事件理解和分析至关重要。它支持诸如 document summarization 和 emergency scenarios 中的 decision‑making 等任务……
了解大型语言模型(LLMs)记忆的事实知识类型对于评估其可靠性和局限性至关重要。Entity-based ...
人类的道德判断是情境依赖的,并受到人际关系的调节。随着大型语言模型(LLMs)日益在决策支持中发挥作用……
先前的工作主要通过简单的条件语句来评估 code generation bias,这仅代表了现实编程的狭窄切片并且 rev...
副语言线索对于自然的人机交互至关重要,然而在大型音频语言模型(LALMs)中的评估仍受限于粗略的……
现代语言模型展示了在常见编程语言(PL)如 C++ 和 Python 中令人印象深刻的编码能力,但它们在低级…
随着人工智能(AI)系统在关键领域的部署日益增多,其安全漏洞带来的高调安全事件风险也在不断上升。
在自然文本上训练的语言模型学会使用周期特征来表示数字,主要周期为 T=2、5、10。在本文中,我们识别出一种两……
大型视觉语言模型(LVLMs)在奥林匹克水平的推理任务上取得了显著进展。然而,当前的奥林匹克水平多模态…
大型语言模型(LLMs)在医疗保健中的部署日益增多,但它们与临床标准的沟通对齐仍然缺乏充分量化……
我们研究将类人工作记忆约束整合到Transformer架构中,并实现了几种受认知启发的注意力机制……
我们推出了一个用于双语拉丁语和英语环境下的问答与翻译基准数据集,包含约 7,800 对问答。T...
货运经纪公司在动态定价条件下每日协商数千个承运人费率,模型经常在对话中途修改目标。Classica…
本研究探讨了提示设计和评审选择在 LLM-as-a-Judge 对自由文本法律问答评估中的作用。我们考察了自动……
行为驱动开发(BDD)套件会累积步骤文本重复,其维护成本已在先前的工作中得到确认。现有的检测技术 re...
大型语言模型(LLMs)仍然在多步骤逻辑推理方面存在困难。现有方法要么仅在自然语言中纯粹优化推理链……
追求真理是民主审议和治理的核心,但政治话语呈现出不同的认识取向,范围从基于证据的理性论证到情感化的价值诉求。理性主义者强调事实、数据和逻辑推理,主张在公共决策中采用科学方法和经验检验;而情感主义者则更关注叙事、身份认同和情感共鸣,认为这些因素同样决定公众的政治判断。两种取向在实际政治过程中交织互补:理性论证提供政策的可行性和可验证性,情感诉求则激发公众参与和价值认同。为实现更具包容性的民主治理,需要在公共讨论中平衡这两种认识方式,既不忽视证据的力量,也不排除情感与价值的作用,从而在多元社会中构建更具合法性和可持续性的决策体系。
函数向量(FVs)是从模型在上下文学习期间的激活中提取的任务的向量表示。虽然先前的工作已经表明,多线性…
大型语言模型在复杂推理任务上取得了显著进展。然而,当输入不完整时,它们经常隐式地编造信息。
早期的一篇论文(Hong、Potteiger 和 Zapata 2026)表明,未优化的 GPT 4.1 提示能够在一个分数范围内预测粉丝报告的体验评分,准确率为 67%……
Edge 设备(如智能手表和智能眼镜)由于功耗和计算限制,无法持续运行即使是最小的 100M‑1B 参数语言模型。
Multimodal Large Language Models 正在越来越多地被用作交互环境中的 autonomous agents,然而它们主动解决安全隐患的能力仍然有限...
自由联想规范为认知科学中研究语言、语义和文化现象提供了重要的实证数据。尽管大型...
最近的工作已经展示了在进化和代理优化系统中编排大型语言模型(LLMs)的前景。然而,机制……
现代序列模型主要由 Transformers 主导,其中 self‑attention 以输入依赖的方式混合可见上下文的信息。然而,当 r...
大型语言模型在生成过程中经常会出现不可恢复的推理错误:一旦出现错误的步骤,后续的 token 会进一步加剧错误……
最近的一项研究(Kuribayashi 等,2025)显示,人类的句子处理行为,通常在句法上不具挑战性的结构上进行测量,ca…
权重量化已成为高效 LLM 部署的标准工具,尤其是在本地推理中,模型现在常规以 2-3 位的精度进行服务,p...
对模型输出的验证正迅速成为大语言模型(LLMs)在训练和实际部署中的关键原语。实际上,t...
构建用于训练和评估爪状代理的环境仍然是一个手工、耗费人力的过程,难以规模化。我们认为,需要……
本文研究了如何将经验性的对话流统计信息纳入下一对话行为预测(NDAP)。提出了一种 KL 正则化项,...
Open-weight language models 可以通过多种不同的干预方式变得不安全,但 resulting models 在能力上可能有显著差异,be...
大型语言模型(LLMs)在检索增强生成(RAG)中被广泛使用,以在推理阶段加入外部知识。然而,当检索……
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
现有的大语言模型(LLM)分解工作主要关注提升下游任务的性能,但它们忽视了并行推理的不足……
大型音频语言模型(Large Audio-Language Models,LALMs)正日益融入日常应用,但它们的生成偏差仍未得到充分研究。现有的语音公平…
尽管进展迅速,用于序列决策的 LLM(即 LLM 代理)仍然难以产生多样化的输出。这导致了探索不足……
我们提出了一种用于从表格数据文档中进行声明验证的新方法。近期基于 LLM 的方法要么采用复杂的预训练/微调,要么…
基于纯贪婪更新的迭代对齐方法在实践中表现出惊人的有效性,然而现有的 (O(log T)) KL 正则化 的理论保证仍然有限。