[Paper] inference-fleet-sim:基于排队论的 LLM 推理舰队容量规划器
为 LLM 推理规模化 GPU fleet 比看起来更困难。显而易见的问题——需要多少 GPU、哪种类型、如何划分两池 fleet——没有明确的答案……
4654 posts from this source
为 LLM 推理规模化 GPU fleet 比看起来更困难。显而易见的问题——需要多少 GPU、哪种类型、如何划分两池 fleet——没有明确的答案……
Vision-Language-Action (VLA) 模型在静态操作方面表现出色,但在具有移动目标的动态环境中表现不佳。这一性能差距主要源于 …
扩展深度是大型语言模型(LLMs)的关键驱动因素。然而,随着LLMs变得更深,它们往往会遭受信号衰减:信息特征形成……
Vision-Language-Action(VLA)模型最近作为一种有前景的机器人操作范式出现,其中可靠的动作预测关键依赖于……
AI 能在重要、未解决的数学问题上取得进展吗?Large language models 现在已经能够进行复杂的数学和科学推理,……
生成用于视觉文本渲染的准确 glyphs 是必不可少且充满挑战的。现有方法通常通过在大量数据上进行训练来提升文本渲染效果。
现有的大语言模型(LLMs)行为对齐技术往往忽视表面顺从与内部未对齐表示之间的差异……
最近的视频扩散模型在视觉质量方面取得了显著进步,但精确、细粒度的控制仍然是限制其实用性的关键瓶颈。
我们提出 HSImul3R,一个统一的框架,用于从随意捕获(包括稀疏视角)中实现可用于仿真的 3D 重建人‑场景交互(HSI)。
SAM 3D Body(3DB)在单目 3D 人体网格恢复方面实现了最先进的精度,但其每张图像数秒的推理延迟阻碍了实时……
近期的对话记忆系统在摄取阶段大量投入基于 LLM 的结构化,以及在查询阶段的学习检索策略。我们展示了 neithe…
我们研究在对抗性腐败和具有有限 (1+ε) 阶矩(其中 ε∈(0,1])的重尾噪声下的 linear contextual bandits。现有工作...
深度搜索能力已成为前沿大型语言模型(LLM)代理的不可或缺的能力,然而高性能搜索的开发……
物理信息神经网络(PINNs)和神经算子(NOs)用于求解极紫外(EUV)电磁波衍射问题……
如果一个 world simulation model 能够渲染的不是想象中的环境,而是实际存在的城市会怎样?之前的 generative world models 在视觉上合成了 pla...
本文开发了用于前向反射-后向分裂(FRBS)方法的新方差降低技术,以求解一类可能非单调的随机问题。
扩展推理时计算已成为 LLM 性能的重要驱动因素,使得推理效率成为模型设计的核心关注点之一,……
随着 AI 编码代理成为源码的主要生产者和消费者,软件行业正面临机构知识的加速流失。Eac...
我们提出了 PokeAgent Challenge,这是一个基于 Pokemon 多智能体对战系统和广阔角色扮演的的大规模决策研究基准。
本文教程论文提供了使用 Storm 模型检查器进行概率模型检查的实践视角。Storm 是一个已有十年历史的模型检查器,擅长……
对于形态学丰富、资源匮乏的语言,关键词提取仍然研究不足,主要原因是缺乏合适的评估数据集。我们…
越南医学研究已成为一个日益重要的领域,尤其是随着旨在减少时间和资源的智能技术的兴起……
机器人正日益在各个领域部署,并被设计用于多用途操作。随着机器人系统的复杂性增加并在动态环境中运行,
AI 系统在沉默中失败的情况远比可见的失败更常见。在对 WildChat 数据集中的人机交互进行的大规模定量分析中,我们发现…
Agent skills(代理技能),在推理时注入的结构化过程知识包,正日益被用于增强 LLM 代理在软件工程任务中的能力。Ho...
物联网(IoT)和智能应用的快速普及导致分布式传感设备产生的数据激增。Edge computing…
编写时序逻辑属性对于模型驱动开发框架的用户来说通常是一项具有挑战性的任务,尤其是在将非正式需求……
随着电信运营商加速采用 AI-enabled automation,一个实际问题仍未得到解决:通用的大型语言模型(general‑purpose large language model)能否……
研究软件工程(RSE)的质量评估在所有科学领域中都发挥着重要作用。基于经典的三大标准(可靠性、有效性、……)。
熟练开发人员的持续短缺,尤其是在安全关键的软件开发领域,已导致组织越来越多地采用 AI 驱动的开发……
从多个输入排名中聚合共识排名是一个基础性问题,具有在推荐系统、搜索引擎、职位招聘等方面的应用。
多代理 LLM 编排在朴素广播下会产生同步成本,其规模随代理数量、步骤数和工件大小呈 O(n × S × |D|) 关系——一个……
大型语言模型(LLMs)在代码生成方面展现出强大的潜力,但在面向私有库的代码生成方面仍受限,其中目标……
GPU 共享对于最大化现代数据中心的硬件利用率至关重要。然而,现有方法呈现出明显的权衡:粗粒度的 tempo…
反编译是二进制分析的基础,然而传统工具更注重人类可读性,而非严格的可重新编译性和可验证的运行时正确性……
道路事故仍然是可预防死亡的主要原因。现有的预测模型主要产生 binary outcomes,这些结果提供的可操作性有限……
量子计算为传统区块链系统带来了可行的多层安全挑战。而量子安全区块链依赖于量子...
在资源受限的嵌入式系统上部署深度神经网络(DNN)需要采用激进的模型压缩技术,如量化和剪枝。H...
理解细胞机器需要对大型生物分子集合进行原子尺度的重建。然而,预测这些系统的结构仍然……
企业软件组织积累关键的制度性知识——架构决策、部署程序、合规政策、事件响应……
脉冲神经网络(SNN)目前面临一个关键瓶颈:虽然单个神经元展现出动态的生物特性,但它们的宏观结构……
高保真计算流体动力学(CFD)模拟被广泛用于分析核反应堆瞬态,但在进行…时计算成本很高。
本研究提出了一种 conditional flow matching 框架,用于求解 physics-constrained Bayesian inverse problems。在这种设置下,来自 joint distribution 的样本……
对火星滑坡的自动分割,尤其是在诸如瓦列斯·马里内里斯等构造活跃地区,对行星地质学和危害评估非常重要。
我们在一个受控的“TV-series”线性动力系统中评估 JEPA 风格的预测表示学习与基于重构的自编码器,系统具有已知…
本文介绍了GELATO(Government, Executive, Legislative, and Treaty Ontology),这是一个来自第118届国会的美国众议院和参议院法案的数据集,已进行注释……
在本文中,我们分析并提出了该方法的 Python 实现——“Pith Estimation on Rough Log End images using Local Fourier Spectrum Analysis”,b...
经典的 scaling laws 将 AI 性能建模为随模型规模单调提升。我们通过推导 Institutional Scaling Law 来挑战这一假设,……