[Paper] YuriiFormer:一套 Nesterov 加速的 Transformers
我们提出了一种变分框架,将 transformer 层解释为在 token 嵌入上进行的优化算法的迭代。在这种视角下,self-
4663 posts from this source
我们提出了一种变分框架,将 transformer 层解释为在 token 嵌入上进行的优化算法的迭代。在这种视角下,self-
近年来,大型语言模型(LLMs)在信息检索方面取得了快速进展,但现有研究主要集中在文本或静态多……
虽然多agent系统在通过专门化处理复杂任务方面显示出潜力,但同时finetuning多个agent面临两个关键挑战:(...)
现有用于长视频理解的 multimodal large language models 主要依赖 uniform sampling 和 single-turn inference,限制了它们的能力 …
语言模型(LMs)在令牌序列上进行训练,而用户通过文本与语言模型交互。这种不匹配导致了 partial token problem,whi...
虽然密集的像素级标注仍然是医学图像分割的黄金标准,但获取成本高且限制了可扩展性。相比之下,许多 d...
尽管近期多模态大型语言模型(MLLMs)在医学诊断方面展现出语言上的卓越能力,但我们发现即使是最先进的MLLMs也存在一个关键的……
由大语言模型驱动的深度搜索代理在多步骤检索、推理和长时程任务执行方面展示了强大的能力。H...
虽然 Chain-of-Thought (CoT) 显著提升了 Large Language Models (LLMs) 的性能,但显式推理链会带来大量计算开销……
我们介绍了 JobResQA,这是一项多语言 Question Answering 基准,用于评估 LLMs 在 HR-specific tasks 上的 Machine Reading Comprehension (MRC) 能力……
开源软件(OSS)的可持续性依赖于新手转变为核心贡献者,但这一渠道已经中断,大多数新手最终变得不活跃。
通过从 monolithic architectures 迁移到 microservices 进行软件现代化已变得日益关键,然而识别有效的服务 …
虚拟现实(VR)技术在各个领域提供沉浸式用户体验,但相较于传统软件,带来了独特的测试挑战。
我们评估平台级家长控制在调节未成年人使用的主流 conversational assistant 方面的有效性。我们的 two-phase protocol 首先构建……
大型语言模型(LLMs)在软件工程研究和实践中日益重要,自动化错误修复(ABF)是其关键应用之一……
开源软件(OSS)依赖是现代软件代码库的主要组成部分。使用经过验证且经过充分测试的 OSS 组件可以让开发者 redu...
智能合约是去中心化网络的支柱,但确保它们的功能正确性和安全性仍然是一个关键挑战。虽然大型语言模型……
Agentic AI 系统通过工具进行操作,并在长期的随机交互轨迹中演化其行为。这种情形使得保证变得更加复杂,因为行为 de...
冲突自由复制数据类型(CRDTs)被广泛用于各个领域,因为它们能够实现无协调复制并具备强最终一致性。通过优先…
深度学习模型的性能在很大程度上取决于高效的 kernel 实现,然而为专用加速器开发高性能 kernel ...
Early‑exit 神经网络因能够在达到足够置信度时进行中间预测,从而降低推理延迟,已变得流行。然而…
批量推理对代理工作负载会持续且累积地施压 GPU 键值(KV)缓存,常导致严重的吞吐量下降……
现实世界中的优化问题对优化算法提出了重大挑战,例如昂贵的评估问题和复杂的约束……
大型语言模型的快速增长正推动组织扩展其 GPU 集群,通常使用来自多个供应商的 GPU。然而,当前的深度学习…
动态优化问题(Dynamic Optimization Problems,DOPs)由于其复杂的本质,即动态环境的变化,难以解决。进化计算方法……
在多方多目标优化问题中,解集通常使用经典性能指标进行评估,并在决策者(DMs)之间进行聚合。然而,...
AI/ML 数据中心的增长导致能源消耗和碳排放增加。向可再生能源的转变以及不断增长的数据中心能源需求可能会……
Data parallelism 和 pipeline parallelism 是在分布式设备上扩展神经网络训练的关键策略,但它们高昂的通信成本需要……
大语言模型(LLM)服务系统仍然根本脆弱,超大规模集群中频繁的硬件故障会导致服务出现不成比例的影响……
由于资源异构、跨阶段耦合以及动态瓶颈迁移,多阶段 ML 推理流水线难以实现自动伸缩。我们提出……
可证明正确的分布式协议是现代分布式系统的关键组成部分,设计它们极具挑战性,且通常需要 d...
梯度无关的黑箱优化(BBO)在工程设计中被广泛使用,并为拓扑优化(TO)提供了灵活的框架,使得 d...
网络安全运营需要能够支持多样化工作流且不泄露敏感数据的助手 LLM。现有解决方案要么依赖于专有 API……
现代的 diffusion/flow-based 模型用于图像生成通常具有两个核心特征:(i) 使用多步采样,(ii) 在 latent …
公共仓库托管着数百万个微调模型,但社区的使用仍然过度集中在少数基础检查点上……
混合Transformer架构结合了softmax注意力块和循环神经网络(RNN),已展示出理想的性能‑吞吐量权衡……
Agentic Reinforcement Learning(Agentic RL)在使智能体进行复杂推理和工具使用方面取得了显著成功。然而,大多数方法仍然…
我们推出了 UEval,这是一套用于评估统一模型的基准测试,即能够同时生成图像和文本的模型。UEval 包含 1,000 条专家策划的问题……
操纵动态对象仍然是视觉-语言-动作(Vision-Language-Action,VLA)模型的一个未解决的挑战,尽管这些模型在静态操纵方面表现出强大的泛化能力,却仍然...
神经网络已成功应用于各种资源受限的边缘设备,在这些设备中通常使用中央处理单元(CPU)而不是图形处理单元(GPU)……
大型视觉语言模型(VLMs)常常在原始图像上对经典视觉错觉给出“正确”的答案,但在错觉事实出现时仍坚持相同的回应……
自主网页代理的开发,由 Large Language Models (LLMs) 和 reinforcement learning (RL) 驱动,代表了朝向通用…的重大一步。
由于监督训练数据有限,大型语言模型(LLMs)通常在庞大的文本语料上通过自监督的“预测下一个词”目标进行预训练。
Audio-Visual Foundation Models,作为预训练模型,能够联合生成声音和视觉内容,最近展现出前所未有的建模多模态的能力……
在剪枝中,Lottery Ticket Hypothesis 假设大型网络包含稀疏子网络(即 winning tickets),这些子网络可以单独训练,以匹配 …
面向推理的 Large Language Models (LLMs) 已经通过 Chain-of-Thought (CoT) 提示取得了显著进展,但它们在根本上仍然受到限制……
矩阵函数,如 square root、inverse roots 和 orthogonalization,在用于神经网络训练的 preconditioned gradient methods 中发挥核心作用。T...
现有的智能体安全基准报告二元准确率,将早期干预与事后分析混为一谈。一个在第8步标记违规的检测器……