[Paper] JMigBench:用于评估 LLM 在源代码迁移(Java 8 到 Java 11)上的基准
我们构建了一个基准,用于评估大型语言模型(LLMs)在源代码迁移任务中的表现,特别是将函数从 Java 8 升级到 Java 11。我们首先……
3122 posts from this source
我们构建了一个基准,用于评估大型语言模型(LLMs)在源代码迁移任务中的表现,特别是将函数从 Java 8 升级到 Java 11。我们首先……
在功能和适应性需求的同时,将人类价值观进行操作化仍然具有挑战性,因为它们具有模糊性、多元性和上下文依赖性……
在现实世界的软件工程任务中实现精通,根本受限于大规模、高质量训练数据的稀缺。规模化……
组织正在研究生成式 AI 如何支持其运营工作和决策过程。本研究调查了能源…
在 spiking neural networks (SNNs) 中训练传输延迟已被证明能够显著提升其在复杂时序任务上的性能。在本工作中...
部署大规模 MoE 模型在专家激活的内存容量和带宽方面面临挑战。虽然 Attention-FFN Disaggregation (AFD) 已经出现……
脉冲神经网络(SNN)正日益被研究作为卷积神经网络(CNN)的节能替代方案,尤其适用于边缘智能。
大型语言模型代理能开发工业级移动应用吗?我们推出了 SWE‑Bench Mobile,这是一项用于在真实环境中评估编码代理的基准测试……
Rashomon 集合捕捉了那些实现几乎相同经验性能,但在决策边界上可能有显著差异的模型集合。...
可追溯性链接是软件开发人员的重要信息来源,连接软件工件(例如,将需求链接到相应的源代码……)。
生产级 state-machine replication (SMR) 实现是复杂的、多层架构,包含数据分发、排序、执行和恢复……
何时需要在分布式规范中本质上要求 coordination,而不是由特定 protocol 或 implementation strategy 强加?我们给出一个 g...
在 LLMs 推理中,主要挑战仍然是频繁的 memory bandwidth 瓶颈、computational redundancy,以及 long‑sequence processing 的低效。为了 ad...
随着芯片间硅光子技术因其带宽和能效而受到关注,其电路交换的特性为研究人员提出了一个根本性的问题……
处理大规模图数据集计算密集且耗时。以处理器为中心的 CPU 和 GPU 架构,通常用于图应用……
本工作提出了 WorldCompass,这是一种新颖的强化学习(RL)后训练框架,针对长期、交互式基于视频的世界模型,能够……
在自动驾驶中,分布外(OOD)鲁棒性常常被简化为一个单一数字,掩盖了导致策略失效的因素。我们沿着五…
从栅格化的平面图像中重建结构化的矢量图形表示通常是计算任务的一个重要前提条件,涉及……
GUI-enabled agents的快速演进已经使传统的CAPTCHA变得过时。虽然之前的基准测试如OpenCaptchaWorld为…
时间序列数据支持许多领域(例如金融和气候科学),但其快速增长给存储和计算带来压力。Dataset condensation 可以缓解……
我们通过神经复形的紧支撑 Moore 复形来研究 ample groupoids 的同调。设 (A) 为一个拓扑阿贝尔群。对于 (n ge 0),设 (C_n(mathcal G;A)) ……
隐私是一项维系患者-提供者信任的人权。临床记录捕捉患者的私人脆弱性和个体性,这些被用于...
Computer-use agents (CUAs) 在过去一年取得了巨大的进展,但它们仍然经常产生偏离用户原始意图的误对齐行为。
我们提出了下一概念预测(Next Concept Prediction,NCP),一种建立在下一标记预测(Next Token Prediction,NTP)之上的生成式预训练范式。NCP 预测离散概念,...