[论文] ZO‑SAM:Zero‑Order Sharpness‑Aware Minimization 用于高效稀疏训练
深度学习模型尽管取得了令人印象深刻的成就,但仍面临高计算成本和内存需求,限制了它们在资源受限环境中的可用性……
深度学习模型尽管取得了令人印象深刻的成就,但仍面临高计算成本和内存需求,限制了它们在资源受限环境中的可用性……
理解注意力机制的理论基础仍然具有挑战性,因为它们具有复杂的非线性动力学。本工作揭示了一个基本的……
扩散模型在将噪声转化为照片时实际上在做什么?我们展示了确定性 DDIM 逆向链的工作方式相当于一个 Partitioned Iter…
大型语言模型(LLMs)在高资源语言对的机器翻译方面展现了卓越的能力,但它们在低资源…
Supervised Semantic Differential (SSD) 是一种混合定量‑解释性方法,用于建模文本意义如何随连续的个体差异变量而变化……
在神经形态硬件上进行联邦学习仍未被探索,因为芯片上的突触时序依赖可塑性(STDP)产生二进制权重更新,而…
训练具备软件工程(SWE)代理能力需要大规模、可执行且可验证的环境,这些环境能够提供用于迭代的动态反馈回路。
与 AI 代理进行的长时间对话为单个用户带来了一个简单的问题:历史记录很有用,但逐字保存它代价高昂。我们研究 personalized ag...
概述:当你在今年夏天打开 Peacock 移动应用时,可能会在主页上看到电视主持人 Andy Cohen 的 AI 形象弹出。在一则公告中……
错误跨度检测(Error Span Detection,ESD)是机器翻译(Machine Translation,MT)评估中的关键子任务,旨在识别翻译错误的位置和严重程度。虽然…
嗨,HN!我们是来自 Spine AI 的 Ashwin 和 Akshay – https://www.getspine.ai 什么是 Spine Swarm?Spine Swarm 是一个在无限可视化环境中运行的多代理系统。
强化学习(reinforcement learning)驱动的对齐的广泛采用凸显了奖励模型(reward models)日益重要的地位。已经构建了各种基准(benchmarks)来评估……
检索增强生成(Retrieval‑Augmented Generation,RAG)和混合搜索(Hybrid Search)是一种强大的技术,用于从语料库中检索相关文档……
MCP 插件 · 开源 · MIT 使用 Claude 构建,供 Claude 使用。提示缓存的工作原理:Anthropic 的缓存 API 将稳定内容在服务器端存储 5 分钟……
将大型语言模型(LLMs)集成到业务流程管理工具中,有望使业务流程模型与标记法(BPMN)建模民主化,...
强化学习(RL)已成为后训练扩散式图像合成模型的标准技术,因为它能够从奖励信号中学习……
脉冲神经网络(SNNs)已成为一种受生物启发的传统深度网络的替代方案,提供事件驱动和能效高的计算……
大型语言模型(LLMs)在代码生成方面展示了卓越的能力,但在诸如 Computer‑Aided … 等领域特定任务上表现不佳。
引言 每周都会出现新的“best model ever”。每个 benchmark 都承诺超人的性能。每个 demo 都完美无缺。实际上会发生的情况是……
联邦聚类(Federated Clustering,FC)是一种新兴且有前景的解决方案,用于在分布式且受隐私保护的数据中探索数据分布模式,属于无监督学习。
引言 随着生成式 AI 应用从原型转向生产系统,开发者日益面临一个新的架构挑战:选择……
我一直在研究一种名为 Proof-of-Execution(PoE)的协议。其理念很简单:如今的 AI 代理主要依据其输出进行评估,但输出可能会被…
《为何 AI治理 在缺乏稳定术语时会失败》封面图片 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/...
视觉设计是最先进的多模态 AI 系统的重要应用。提升这些系统需要大规模高质量的视觉‑语言数据……
!Siddhesh Survehttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%...
引言 为了解决葡萄酒分类挑战,我们将目标从预测连续评分转变为识别类别标识。
大型语言模型(LLM)推理被广泛用于交互式助手和代理系统。在对延迟敏感的部署中,推理时间可能会变得……
心力衰竭、历史与现代管理 心力衰竭的特征是心肌衰弱或受损,导致体内液体逐渐积聚……
优化 GPU kernel 对大型语言模型(LLMs)来说,比标准代码生成任务要困难得多,因为它需要理解……
现代神经网络参数过多,剪枝通过去除冗余的神经元或连接,已成为压缩的关键方法……
自回归(AR)视频生成模型依赖于将像素压缩为离散 token 序列的视频 tokenizer。这些 token 序列的长度是 …
多模态大型语言模型(MLLMs)正日益用于执行视觉工作流,例如在 GUI 中进行导航,其中下一步取决于已验证的视觉……
现代视觉代理需要具备通用的、因果的、以及物理结构化的表征,以在实时流媒体环境中运行。然而,当前…
Unified multimodal models 旨在实现联合理解、推理和生成,但当前的 image editing benchmarks 主要局限于自然图像和……
在线视频大语言模型(VideoLLMs)在支持响应式、实时交互方面发挥关键作用。现有方法侧重于流式感知……
文本到图像生成模型发展迅速,但实现对生成图像的细粒度控制仍然困难,主要是由于对...的有限了解。
人类通过一连串的视觉观察来感知和理解现实世界的空间。因此,能够流式地维护和更新空间证据的能力……
现有的视频深度估计面临一个根本性的权衡:生成模型会出现随机的几何幻觉和尺度漂移,而判别模型……
构建用于基础模型训练的科学多模态文档推理数据集涉及规模、忠实性和现实性之间的固有权衡。
交叉熵(CE)训练为语言模型提供了密集且可扩展的监督,但它在教师强制(teacher forcing)下优化下一个标记的预测,而不是……
推理 LLMs-as-Judges,能够受益于推理时的规模扩展,为将推理模型的成功扩展到非可验证的领域提供了有前景的路径。
跨越物理、语言和感知的智能系统通常表现出 factorisable structure,但通常被建模为 monolithic neural architectures …
我们提出了 STAMP(Selective Task-Aware Mechanism for Text Privacy),一个用于任务感知文本隐私化的新框架,能够实现改进的隐私‑效用 …
Neural network verification 通常用作更大分析过程的核心组件,这些过程会生成一系列紧密相关的 verification queries。
学习良好的表征对于使用世界模型进行潜在规划至关重要。虽然预训练的视觉编码器能够生成强大的语义视觉特征,但它们……
本文是对 Perplexity 对 NIST/CAISI Request for Information 2025-0035 的回复进行轻度改编的版本,详细阐述了我们的观察和建议 c...
预训练产生的学习 parameter vector 通常被视为进一步 iterative adaptation 的起点。在本工作中,我们则将其视为……
尽管跨学科研究能够带来更大和更长期的影响,但大多数工作仍局限于单一领域的学术孤岛。最近的基于AI的……