[Paper] 调度不可调度的:在规模上驯服黑盒 LLM 推理
当在提交时能够预测输出 token 数量(Gan et al., 2026),针对黑盒 LLM API 的客户端调度就变得半先知:de...
4611 posts from this source
当在提交时能够预测输出 token 数量(Gan et al., 2026),针对黑盒 LLM API 的客户端调度就变得半先知:de...
现代 recommendation models 的参数已增长至数万亿。随着 cluster 规模扩展到约 O(1k),distributed training 的瓶颈从计算…
确保密文不可区分性是密码学安全的基础,但在实际实现和混合系统中经验性地验证这一属性……
在本文中,我们定义了一类新的分布式任务,称为 SOS 任务(Set of Output Sets 任务),其由集合 O 表示不同的输出集合的值。
上皮组织通过细胞之间的局部机械相互作用动态重塑,这一过程被 vertex models 很好地捕捉。然而,它们拥有众多可调参数……
多机器人系统在医疗保健、探索和救援任务等多种应用领域变得日益重要。然而,构建…
问题解决旨在根据给定的 issue descriptions 自动生成 patches,随着 large language models 的快速发展,这一领域已受到显著关注。
虽然传统的优化问题常常是孤立研究的,但如今许多现实世界的问题需要多个优化组件之间的相互依赖……
科学文献的快速增长使研究人员越来越难以高效地发现、评估和综合相关工作。Re...
静态的“train then deploy”范式从根本上限制了大型语言模型(LLMs)在面对持续的…
Churn flow——垂直两相流中的混沌、振荡状态——在过去40多年里缺乏定量的数学定义。我们首次…
大型视觉语言模型可能在图像描述中产生对象幻觉,这凸显了有效检测和缓解策略的需求。P...
字符错误率(CER)是评估光学字符识别(OCR)质量的关键指标。然而,该指标假设文本已经…
在强化学习(RL)中,给定一个提示(prompt),我们从模型中采样一组补全(completions)并对它们进行评分。随后会出现两个问题:哪些补全应该获得概率质量(probability mass),以及……
MLLMs 已成功应用于多模态嵌入任务,但它们的生成推理能力仍未得到充分利用。直接将 cha...
是否大型语言模型(LLMs)能够形成连贯的内部世界模型仍是核心争论。传统的下一标记预测(Next-Token Prediction,NTP)侧重于单个……
人工智能治理存在盲点:AI 系统用于行动的机器身份。AI agents、service accounts、API tokens,以及 auto...
高效的数据加载仍然是近期量子机器学习的瓶颈。现有方案(angle、amplitude 和 basis 编码)要么未充分利用 …
本文介绍了多项式混合器(Polynomial Mixer,PoM),这是一种具有线性复杂度的新型 token mixing 机制,可直接替代 self-attention....
计算机使用代理有望在广泛的数字经济活动中提供帮助。然而,当前的研究主要集中在短期视角……
本研究提出了一种轻量级多模态适配框架,以弥合 RGB 预训练 VLMs 与热红外影像之间的表征差距,并……
可扩展的户外驾驶场景生成需要在多个视角下保持一致并能够扩展到大范围的 3D 表示。现有的 s...
大型语言模型(LLM)代理正日益在多代理环境中充当人类代表,在这种环境中,代表代理整合多样的同行…
现代基于Transformer的语言模型在自然语言处理任务中表现出色,但它们的潜在语义空间仍然在很大程度上未被……
Graphics Program Synthesis 对于解释和编辑视觉数据至关重要,有效促进了将静态视觉内容逆向工程为可编辑的形式……
人格特质在自然语言中被丰富地编码,而在人工文本上训练的大型语言模型(LLMs)在以提示为条件时可以模拟人格。
现代的 exascale GPU 和 APU 系统提供了多个功率和能量传感器,但在范围、更新速率、时序和滤波方面的差异使得……
图形处理单元(GPUs)在常规的数据并行工作负载中表现出色,因为可以轻松利用大规模硬件并行性。相比之下,许多重要的…
Large Language Models (LLMs) 在程序修复方面表现出色,但常常出现过度编辑的问题,即过多的修改会覆盖正确的代码……
本文提出了一个用于优化软件开发中人类与AI劳动力分配的量化框架,可迁移到其他劳动类别。I for...
基于 spatial tree traversal 的算法被广泛认为是 CPU-based high-performance 环境中许多问题最有效且最灵活的方法之一。
Neural network pruning 可以被表述为一个 combinatorial optimization 问题,但大多数现有方法依赖于忽视复杂 int... 的 greedy heuristics。
概念验证(PoCs)在软件工程中被广泛采用。尽管其重要性,概念验证仍在概念上缺乏明确定义,方法论也不够完善……
规范合成任务旨在自动为现有程序生成规范,并附带任何必要的辅助验证注释。
检测光伏(PV)监测和 MPPT 控制信号中的网络攻击,需要模型对 bias、drift 和 transient spikes 具有鲁棒性,同时又要轻量化……
大型语言模型(LLMs)已快速从通用系统演变为能够处理文本、图像和音频的多模态模型。随着两者...
在当今的 software architecture 中,large language models (LLMs) 充当 software architecture co-pilots。然而,目前没有 benchmark 来评估 large...
Web 应用程序在很大程度上依赖超链接来连接不同的信息资源。然而,网络的动态特性导致链接腐烂(link rot),即目标…
Serverless computing,特别是 Function-as-a-Service (FaaS),通过抽象基础设施管理并实现动态…
我们提出 MegaTrain,这是一种以 memory-centric 为核心的系统,能够在单个 GPU 上以 full precision 高效训练 100B+ 参数的大型语言模型。不同于传统的……
我们提出了 Vanast,一个统一的框架,能够直接从单张人物图像、服装图像和 pose 生成 garment‑transferred 人体动画视频。
场景级点云理解仍然具有挑战性,因为几何形状多样,类别分布不平衡,空间布局高度多变。Exist...
局部特征匹配长期以来一直是 3D 视觉系统(如 Structure-from-Motion (SfM))的基础组成部分,然而其进展相较于快速 …
大多数视觉语言模型(VLM)使用大型语言模型(LLM)作为解码器,其中响应标记通过自回归(autoregressive)方式顺序生成。
预训练的扩散模型推动了全能修复(All-in-One Restoration,AiOR)的显著进展,提供了更好的感知质量和泛化能力。Ho...
在本文中,我们开发了一种基于分层的 Signal Temporal Logic (STL) 语义,其中每个原子谓词被解释为 membership test in……
在大型语言模型(LLMs)中进行扩展推理会导致严重的 KV 缓存内存瓶颈。领先的 KV 缓存压缩方法使用…来估计 KV 重要性。
我们研究 physics-informed neural networks (PINNs) 作为求解半线性偏微分方程最优控制的数值工具。我们首先回顾 c...