[Paper] Med-Scout:通过 Geometry-Aware RL 后训练治愈 MLLMs 在医学感知中的几何盲点
尽管近期多模态大型语言模型(MLLMs)在医学诊断方面展现出语言上的卓越能力,但我们发现即使是最先进的MLLMs也存在一个关键的……
尽管近期多模态大型语言模型(MLLMs)在医学诊断方面展现出语言上的卓越能力,但我们发现即使是最先进的MLLMs也存在一个关键的……
由大语言模型驱动的深度搜索代理在多步骤检索、推理和长时程任务执行方面展示了强大的能力。H...
虽然 Chain-of-Thought (CoT) 显著提升了 Large Language Models (LLMs) 的性能,但显式推理链会带来大量计算开销……
我们介绍了 JobResQA,这是一项多语言 Question Answering 基准,用于评估 LLMs 在 HR-specific tasks 上的 Machine Reading Comprehension (MRC) 能力……
开源软件(OSS)的可持续性依赖于新手转变为核心贡献者,但这一渠道已经中断,大多数新手最终变得不活跃。
通过从 monolithic architectures 迁移到 microservices 进行软件现代化已变得日益关键,然而识别有效的服务 …
虚拟现实(VR)技术在各个领域提供沉浸式用户体验,但相较于传统软件,带来了独特的测试挑战。
我们评估平台级家长控制在调节未成年人使用的主流 conversational assistant 方面的有效性。我们的 two-phase protocol 首先构建……
大型语言模型(LLMs)在软件工程研究和实践中日益重要,自动化错误修复(ABF)是其关键应用之一……
开源软件(OSS)依赖是现代软件代码库的主要组成部分。使用经过验证且经过充分测试的 OSS 组件可以让开发者 redu...
智能合约是去中心化网络的支柱,但确保它们的功能正确性和安全性仍然是一个关键挑战。虽然大型语言模型……
Agentic AI 系统通过工具进行操作,并在长期的随机交互轨迹中演化其行为。这种情形使得保证变得更加复杂,因为行为 de...
冲突自由复制数据类型(CRDTs)被广泛用于各个领域,因为它们能够实现无协调复制并具备强最终一致性。通过优先…
深度学习模型的性能在很大程度上取决于高效的 kernel 实现,然而为专用加速器开发高性能 kernel ...
Early‑exit 神经网络因能够在达到足够置信度时进行中间预测,从而降低推理延迟,已变得流行。然而…
批量推理对代理工作负载会持续且累积地施压 GPU 键值(KV)缓存,常导致严重的吞吐量下降……
现实世界中的优化问题对优化算法提出了重大挑战,例如昂贵的评估问题和复杂的约束……
大型语言模型的快速增长正推动组织扩展其 GPU 集群,通常使用来自多个供应商的 GPU。然而,当前的深度学习…
动态优化问题(Dynamic Optimization Problems,DOPs)由于其复杂的本质,即动态环境的变化,难以解决。进化计算方法……
在多方多目标优化问题中,解集通常使用经典性能指标进行评估,并在决策者(DMs)之间进行聚合。然而,...
AI/ML 数据中心的增长导致能源消耗和碳排放增加。向可再生能源的转变以及不断增长的数据中心能源需求可能会……
Data parallelism 和 pipeline parallelism 是在分布式设备上扩展神经网络训练的关键策略,但它们高昂的通信成本需要……
大语言模型(LLM)服务系统仍然根本脆弱,超大规模集群中频繁的硬件故障会导致服务出现不成比例的影响……
由于资源异构、跨阶段耦合以及动态瓶颈迁移,多阶段 ML 推理流水线难以实现自动伸缩。我们提出……