[论文] ABC-Bench:在真实世界开发中对 Agentic 后端编码进行基准测试
大型语言模型(LLMs)向自主代理的演进已经将 AI 编码的范围从局部代码生成扩展到复杂的、仓库级…
大型语言模型(LLMs)向自主代理的演进已经将 AI 编码的范围从局部代码生成扩展到复杂的、仓库级…
工具集成推理(Tool-Integrated Reasoning,TIR)使大型语言模型(LLMs)能够通过将推理步骤与外部工具交互交错进行,来处理复杂任务。H...
在长期、目标导向的交互中部署大型语言模型仍然具有挑战性,因为相似的实体和事实会在不同的潜在 …
Concept-based explanations 量化了高级概念(例如 gender 或 experience)对 model behavior 的影响,这对高…的决策者至关重要。
在论证性文本中检测说服是一项具有重要意义的挑战性任务,对理解人类交流具有重要影响。本研究调查了 r...
大型语言模型(LLMs)可以通过对其输出表达置信度来提升用户的感知信任。然而,先前的研究表明,LLMs往往 o...
Large Language Models (LLMs) 已经展现出卓越的能力,但仍然容易受到旨在绕过 safety guardrails 的对抗性 “jailbreak” 攻击。
条件语言模型的内在评估指标,如 perplexity 或 bits-per-character,已在单语和多语环境中被广泛使用……
对大型语言模型(LLMs)进行选择性知识擦除对于遵守GDPR以及模型安全至关重要,然而当前的unlearning方法将行为抑制与真正的…混为一谈。
多智能体系统 (MAS) 通过协调多个代理实现复杂推理,但由于多步执行和重复... 常常导致高推理延迟。
大型语言模型(LLMs)在自然语言任务中取得了令人印象深刻的表现,并且正日益在真实世界的应用中部署。尽管...
AI agent frameworks 的兴起引入了 agent skills,即包含指令和 executable code 的 modular packages,能够动态扩展 agent 的能力……