EUNO.NEWS EUNO.NEWS
  • All (20349) +286
  • AI (3104) +14
  • DevOps (907) +7
  • Software (10509) +190
  • IT (5781) +75
  • Education (48)
  • Notice
  • All (20349) +286
    • AI (3104) +14
    • DevOps (907) +7
    • Software (10509) +190
    • IT (5781) +75
    • Education (48)
  • Notice
  • All (20349) +286
  • AI (3104) +14
  • DevOps (907) +7
  • Software (10509) +190
  • IT (5781) +75
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 3天前 · ai

    [论文] ABC-Bench:在真实世界开发中对 Agentic 后端编码进行基准测试

    大型语言模型(LLMs)向自主代理的演进已经将 AI 编码的范围从局部代码生成扩展到复杂的、仓库级…

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [Paper] MatchTIR:通过二部图匹配实现细粒度监督的工具集成推理

    工具集成推理(Tool-Integrated Reasoning,TIR)使大型语言模型(LLMs)能够通过将推理步骤与外部工具交互交错进行,来处理复杂任务。H...

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [Paper] 在情境意图中根植代理记忆

    在长期、目标导向的交互中部署大型语言模型仍然具有挑战性,因为相似的实体和事实会在不同的潜在 …

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [Paper] LIBERTY:一种使用结构性反事实对 LLM 的概念式解释进行基准测试的因果框架

    Concept-based explanations 量化了高级概念(例如 gender 或 experience)对 model behavior 的影响,这对高…的决策者至关重要。

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [论文] 使用大型语言模型和说服策略检测获胜论点

    在论证性文本中检测说服是一项具有重要意义的挑战性任务,对理解人类交流具有重要影响。本研究调查了 r...

    #research #paper #ai #nlp
  • 4天前 · ai

    [Paper] 影响力训练数据检索用于解释 LLM 的语言化置信度

    大型语言模型(LLMs)可以通过对其输出表达置信度来提升用户的感知信任。然而,先前的研究表明,LLMs往往 o...

    #research #paper #ai #nlp
  • 4天前 · ai

    [Paper] 成为你自己的 Red Teamer:Safety Alignment via Self-Play 和 Reflective Experience Replay

    Large Language Models (LLMs) 已经展现出卓越的能力,但仍然容易受到旨在绕过 safety guardrails 的对抗性 “jailbreak” 攻击。

    #research #paper #ai #nlp
  • 4天前 · ai

    [Paper] 内在多语言评估中的形式与意义

    条件语言模型的内在评估指标,如 perplexity 或 bits-per-character,已在单语和多语环境中被广泛使用……

    #research #paper #ai #nlp
  • 4天前 · ai

    [Paper] 表示感知的遗忘通过激活签名:从抑制到知识签名擦除

    对大型语言模型(LLMs)进行选择性知识擦除对于遵守GDPR以及模型安全至关重要,然而当前的unlearning方法将行为抑制与真正的…混为一谈。

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [Paper] 学习用于并行多代理系统的延迟感知编排

    多智能体系统 (MAS) 通过协调多个代理实现复杂推理,但由于多步执行和重复... 常常导致高推理延迟。

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [论文] 通过 In-Decoding Safety-Awareness 探测防御 Large Language Models 免受 Jailbreak 攻击

    大型语言模型(LLMs)在自然语言任务中取得了令人印象深刻的表现,并且正日益在真实世界的应用中部署。尽管...

    #research #paper #ai #machine-learning #nlp
  • 4天前 · ai

    [Paper] Agent Skills in the Wild:大规模安全漏洞的实证研究

    AI agent frameworks 的兴起引入了 agent skills,即包含指令和 executable code 的 modular packages,能够动态扩展 agent 的能力……

    #research #paper #ai #machine-learning #nlp

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026