【论文】Dirichlet 能量作为过平滑度量的分析
我们分析了两种常用作过平滑度量的泛函之间的区别:由未归一化 graph Laplacian 诱导的 Dirichlet 能量以及 …
4796 posts from this source
我们分析了两种常用作过平滑度量的泛函之间的区别:由未归一化 graph Laplacian 诱导的 Dirichlet 能量以及 …
知识蒸馏(KD)已成为一种有前景的模型压缩技术,但面临关键限制:(1)对超参数的敏感性要求……
正确地从 PDF 中解析数学公式对于训练大型语言模型以及从学术文献构建科学知识库至关重要……
线性光谱混合模型(LMM)提供了一种简洁的形式来解耦组成材料(endmembers)及其相应的比例(abundance)...
预训练的多模态大型语言模型(MLLMs)正日益被部署在医学 AI 系统中,用于临床推理、诊断支持和报告生成……
大型语言模型(LLMs)正日益在人的交流、决策支持、内容创作和信息检索中起到中介作用。尽管表现出令人印象深刻的流畅性……
我们引入了 Conformal Bandits,这是一种将 Conformal Prediction(CP)融入 bandit 问题的全新框架,bandit 问题是序列决策的经典范式……
时间感知是 omni 大型语言模型的一项基本能力,尤其在理解长视频和回答复杂问题时。先前的做法…
在 factorized joins 上学习模型通过识别并预先计算共享因子,避免了冗余计算。先前的工作已经研究了性能……
本章探讨了大型语言模型在法律领域的应用,展示了它们在优化和增强传统法律任务方面的潜力……
本文介绍了 OnCoCo 1.0,一个用于在线咨询中细粒度消息分类的新公共数据集。它基于一个新的、综合的系统……
低功耗微控制器(MCU)硬件目前正从单核架构演进为以多核架构为主。与此同时,新的嵌入…
近期,普适计算与机器学习的融合催生了众多服务,几乎影响到经济和社会活动的所有领域。
文化是人际互动的核心组成部分,在我们感知和与他人交往的方式中发挥着至关重要的作用。关于有效性的进展……
角色扮演代理(RPAs)必须同时掌握许多相互冲突的技能——遵循多轮指令、展示领域知识以及采用……
构建 Pareto 集合对于在大型语言模型(LLMs)的能力‑效率权衡中进行导航至关重要;然而,现有的合并技术 r...
构建Pareto集合对于在大语言模型(LLMs)的能力‑效率权衡中进行导航至关重要;然而,现有的合并技术……
LLM之所以有用,是因为它们的泛化能力非常强。但好事会不会太多?我们展示了在狭窄情境中进行少量微调可以……
本文首次提出一种同时引入 lock-freedom 和 recoverability 的转换。我们的转换从 lock-based 实现开始,……
尽管同构 GPU 基础的深度学习(DL)训练非常流行,但拖慢节点(stragglers)的普遍性、原因和影响,以及现有方法的有效性……
大型语言模型(LLMs)在代码生成方面表现出色,但Chain-of-Thought(CoT)提示的帮助机制仍不清楚。
等变神经网络将对称性编码为归纳偏置,并在广泛领域中取得了强大的经验性能。然而,它们的表达能力……
我们描述了 SynthPix,这是一种用于粒子图像测速 (PIV) 的合成图像生成器,重点关注在加速器上的性能和并行性,实现了……
有效的日志异常检测对于维持大规模 IT 基础设施的可靠性至关重要。Transformer‑based 模型需要大量资源……
系统工程正从文档中心转向模型驱动的方法,资产正变得越来越数字化。虽然数字化…
量子电路设计是实现复杂真实世界数据上的实用量子机器学习的关键瓶颈。我们提出了一种自动化框架,能够发现……
任务调度是云计算中的一项关键研究挑战,云计算是一项在各行业广泛采用的变革性技术。虽然已有大量的调度 …
工作流挖掘从事件日志中发现层次化的过程树,但仍不清楚为何这些模型满足或违反逻辑属性,或如何……
可穿戴系统的眼动追踪需要低延迟和毫瓦级功耗,但传统的基于帧的 pipelines 在运动模糊和高 compute 方面表现不佳……
背景。基于LLM的自主代理在软件工程中依赖大型专有模型,限制了本地部署。这激发了对小型语言模型的兴趣。
多种科学和工程研究领域处理大规模相互作用的 delay differential equations 系统中的离散、带时间戳的变化。Simulat...
在共享 GPU 集群中部署多个模型有望提升大语言模型(LLM)服务的资源效率。现有的多 LLM …
向量搜索是现代信息检索系统的基础,包括检索增强生成(RAG)流水线和针对非结构化文本的搜索引擎……
组织对计算机网络的依赖是通过网络可编程性实现的,而网络可编程性通常通过 Service Function Chaining 来实现。这些 c...
如今,视觉智能工具已经无处不在,提供了各种便利和可能性。然而,这些工具的计算需求很高,...
我们提出了一种新颖的 predict-then-optimize 框架用于 maritime search operations,该框架将 trajectory forecasting 与 UAV deployment optimization 相结合——一个端...
Bug fixing 是软件开发过程中的关键活动。在诸如 JIRA 的问题跟踪系统中,每个 bug 报告都会被分配一个优先级,以 i...
自动算法设计领域已经通过诸如 EoH、FunSearch 和 Reevo 等框架得到了推进。然而,它们仅关注算法进化,忽视……
高性能 GPU kernel 优化仍然是现代机器学习工作负载中一项关键但劳动密集的任务。虽然 Triton,这个领域特定的…
我们将最近的 256 SSE 向量工作扩展到 512 AVX,实现了四倍加速。我们使用 MAGPIE(Machine Automated General Performance Improvement via Evolution of ...)。
基于大型语言模型(LLMs)的 Agentic AI 系统在自动化复杂工作流方面具有巨大的潜力,涵盖从软件开发到客户支持等领域。
最近在 diffusion transformers 方面的进展使视频生成模型能够从文本或图像生成高质量的视频片段。然而,world model...
新视角合成(Novel View Synthesis,NVS)传统上依赖于具有显式3D归纳偏置的模型,并结合来自Structure-from-Motion的已知相机参数……
理解并重建来自 video 的动态场景的复杂几何和运动仍然是 computer vision 中的一项艰巨挑战。本文介绍…
我们引入了两个新的基准 REST 和 REST+(Render-Equivalence Stress Tests),以实现对多模态大型模型中跨模态不一致性的系统评估。
文本感知图像恢复(TAIR)旨在从包含退化文本内容的低质量输入中恢复高质量图像。虽然扩散模型……
人类视频演示为学习机器人策略提供了丰富的训练数据,但仅靠视频无法捕捉对 mast... 至关重要的丰富接触信号。
量子误差校正(QEC)解码面临着一个基本的准确性‑效率权衡。像最小权重完美匹配(MWPM)这样的经典方法表现出……