[Paper] 多头低秩注意力
大语言模型的长上下文推理在解码阶段受到键值(KV)缓存加载的瓶颈限制,因为生成的顺序性……
大语言模型的长上下文推理在解码阶段受到键值(KV)缓存加载的瓶颈限制,因为生成的顺序性……
Multi-attribution learning (MAL),通过学习由多个 attribution mechanisms 产生的 conversion labels 来提升模型性能,已成为……
湄公河三角洲的非物质文化遗产(ICH)图像分类因标注数据有限、视觉相似度高等因素而面临独特的挑战……
储层扩展可以在非线性混合下提升在线独立成分分析(ICA)的效果,但 top‑n 白化可能会丢弃注入的特征。我们正式…
Claude 代理技能的快速激增提出了一个核心问题:如何有效利用、管理和扩展代理技能生态系统。
基于指令的视频编辑取得了快速进展,但现有方法常常在精确的视觉控制方面遇到困难,因为自然语言本质上是……
低位注意力(如 SageAttention)已成为加速模型推理的有效方法,但其在训练中的适用性仍然较差……
检索增强生成(Retrieval‑Augmented Generation,RAG)系统通常采用检索融合技术,例如多查询检索和倒数排名融合(reciprocal rank fusion,RRF)来增加……
从与犯罪相关的文档中提取关键信息是执法机构的一项关键任务。命名实体识别 (NER) 可以执行……
强化学习与可验证奖励(RLVR)通过对大型语言模型(LLMs)进行优化,显著提升了它们的推理能力……
Scaling laws 假设在更多数据上训练的更大模型始终优于较小的模型——这一假设驱动了计算机视觉中的模型选择,但……
大型语言模型(LLMs)正日益被提出作为战略决策环境中的代理,但它们在结构化的地缘政治模拟中的行为仍然……
现代语言模型在有界上下文中进行推理,这一固有约束对长期推理构成了根本障碍。我们识别 recursion a...
Think-Answer 推理器(如 DeepSeek‑R1)通过利用可解释的内部推理取得了显著进展。然而,尽管经常出现……
多模态检索是将跨异构模态的查询信息聚合,以检索所需目标的任务。最先进的多模态……
访问前沿的大型语言模型(LLMs),例如 GPT-5 和 Gemini-2.5,通常受到高昂的价格、支付壁垒和地区限制的阻碍。T...
我们在整个时间范围内统一地、以高概率量化两层神经网络在随机梯度训练下的预测之间的差异。
搜索混乱 BING 腐败:Bing 将 AI 生成的摘要集成到搜索结果中,导致出现大量幻觉式事实、捏造的引用,以及自信的…
训练工具使用代理通常依赖于基于结果的过滤:对成功轨迹进行监督微调(Supervised Fine-Tuning,SFT)和对…进行强化学习(Reinforcement Learning,RL)。
我们推出了 Legal RAG Bench,这是一套用于评估法律 RAG 系统端到端性能的基准和评估方法论。作为基准,Legal RAG Bench…
对 GPT 与 Claude 的结构性观察 许多用户最近注意到 AI 模型的表达方式出现了变化: - 一切都变成了解释 - 对 r 的能力下降…
虽然密集的生物医学嵌入实现了强大的性能,但其黑箱特性限制了其在临床决策中的实用性。最近基于问题的 int...
问题:健忘的交互 想象一下去看一位记忆丧失的杰出医生。每次就诊,你都必须从头解释一切——你的病史、症状……
说实话:我们都有过这种经历。你正深入冲刺,构建一个由大型语言模型(LLM)驱动的闪亮新功能。你给它喂入一个复杂的提示……
Speculative Decoding (SD) 已成为加速大型语言模型(LLM)推理的首选技术,通过将 token 生成解耦为快速 dra...
封面图片:Black-Forest-Labs 在 Replicate 上的《Flux-2-Klein-4b 模型入门指南》 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=...
markdown 2026年1月29日
!Subham kunduhttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2...
在上一篇文章中,我们已经介绍了输入门;在本文中,我们将探讨下一个组件。最终阶段:更新短期记忆 这...
AI‑Powered Wearables 的迫在眉睫的威胁 大多数人并未意识到 AI 即将对人类自主性构成的深刻威胁。常见的说法是……
理解 AI alignment:伪装 AI alignment 发生在 AI 系统恰好执行其设计功能时——例如,阅读和总结文档……
在受限预算下,通过主动成对比较在一组项目中确定胜者是偏好学习中的一个具有挑战性的问题。The go...
什么是 Ad-Supported AI Chat Demo?这个工具是一个讽刺性的但完全可运行的演示,展示了如果 AI 聊天助手是以广告为收入来源,它们可能的样子……
已清理的 Markdown
决策树:嵌套决策规则的非凡力量。作者:Jared Wilber https://twitter.com/jdwlbr 与 Lucía Santamaría https://twitter.com/lusantala 让我们……
请提供您希望翻译的具体摘录或摘要文本,我将为您翻译成简体中文。
将您的偏好和上下文带到 Claude。将您在其他 AI 提供商处的偏好和上下文带到 Claude。只需一次 copy‑paste,Claude 即可更新其 memo……
自主网络——电信领域的下一前沿。自主网络——智能、自我管理的电信运营——正从未来转向……
AI‑RAN:从实验室到现场 关键信息:软件定义的方法是构建未来 AI‑原生无线网络的唯一可行途径。 近期公告 MWC……
2026年1月29日
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
文章:《检测 LLM 生成文本的科学》 https://dl.acm.org/doi/10.1145/3624725 评论:Hacker News 讨论 https://news.ycombinator.com/item?id=...
请提供您希望翻译的具体摘录或摘要文本,我将为您翻译成简体中文。
阿里巴巴的 Qwen 3.5 中等模型系列 稍早于一天前,Qwen AI 团队发布了 Qwen 3.5 中等模型系列 https://x.com/Alibaba_Qwen/status/...
持久内存——为何重要 持久内存不仅仅是为 LLM 存储笔记;它塑造了 LLM 对问题的思考方式。相同的模型、相同的…
AI 辅助?MMWR 报告的作者、县卫生官员 Katherine Houser 指出,啤酒帐篷的工作人员不愿透露细节,因为...
从聊天机器人到自主代理的转变 大型语言模型(LLMs)的世界正在发生变化。我们正从仅仅“聊天”的简单聊天机器人转向自主代理……
本文呈现了一项受生物学启发的局部学习在手写数字识别中的受控实证研究。我们评估了一种受STDP启发的竞争性……