[Paper] 面向专家的效率,面向新手的可见性:Kubernetes 中 Label-Code 对齐的案例研究
GitHub 等平台上的标签支持分流和协作,但人们对它们与代码修改的匹配程度或这种匹配方式知之甚少。
4628 posts from this source
GitHub 等平台上的标签支持分流和协作,但人们对它们与代码修改的匹配程度或这种匹配方式知之甚少。
校准不准确的置信分数是将 AI 部署到临床环境中的实际障碍。一个始终过度自信的模型无法提供有用的信号……
Composer 2 是一种专门为 agentic 软件工程设计的模型。该模型展示了强大的长期规划和编码智能,同时主要…
Self-distillation 已成为 LLMs 的一种有效的 post-training 范式,通常能够提升性能并缩短 reasoning traces。然而,在 mathem...
Enes 提出的架构是一种 mixture of experts,它允许对模型实体(例如 causal relationships)进行进一步参数化。更多……
LLMs 正日益嵌入编程工作流,从代码生成到自动代码审查。然而,性别化的沟通风格如何与 LLM 交互……
当多个基于 LLM 的代码代理独立实现同一个类的不同部分时,它们必须在共享的内部表示上达成一致,即使在具体…
现代软件系统高度依赖第三方依赖,使得软件供应链安全成为关键关注点。我们引入了软件……
集中式身份管理系统持续面临安全和隐私挑战,推动了对去中心化身份(Decentralized Identity,DI)和…
我们提出 geogap{},一种用于检测软件规格中缺失需求类型的几何方法。该方法将每个需求表示为一个 unit vec…
第一代学生正在与 GenAI(Generative Artificial Intelligence)工具一起学习编程,这引发了关于年轻学习者如何…
Higher Degree by Research (HDR) 候选人越来越依赖云提供的虚拟机和本地 GPU 硬件来进行计算实验,...
存储可扩展性在大数据区块链时代至关重要。一个存储可扩展的区块链能够有效地将状态存储扩展到任意数量……
区块链技术常被讨论得好像它凭空出现一样,然而它的架构DNA直接追溯到去中心化计算原则 Jame……
Neural Collapse 是一种现象,有助于识别深度分类器中的稀疏和低秩结构。最近的工作已经扩展了 Neural Collapse 的定义……
多链生态系统面临身份碎片化、流动性孤岛以及依赖桥接的代币转移等问题。我们提出 n-VM,这是一种 Layer-1 架构,……
在设备上部署 large language models 用于 always‑on personal agents,需要在功率和 thermal envelope 严格受限的 hardware 上进行持续的 inference。
依赖于 in-domain annotations 和精确的 sensor‑rig priors,现有的 3D occupancy prediction 方法在可扩展性和 out‑of‑domain 泛化方面都受到限制。
Vision Language Models (VLMs) 正在越来越多地用于医学报告生成和视觉问答等任务。然而,流畅的诊断文本却……
能够交错生成的统一模型已经成为一种有前景的范式,社区正日益趋向于使用自回归建模来……
在高质量数据上训练的光流模型在面对真实世界的失真(如模糊、噪声和压缩伪影)时,往往会出现严重的性能下降。
Dynamical systems theory and reinforcement learning 将世界的演化视为由动作驱动的潜在状态动力学,视觉观测提供部分 …
对气动状态变量(如 freestream velocity 和 angle of attack (AoA))的精确估计对于气动载荷预测、飞行…
现有的提升大型视觉语言模型(LVLMs)效率的方法主要基于视觉 token reduction 的概念。这种方法...
扩散模型和流匹配模型已经解锁了前所未有的创意内容创作能力,例如交互式图像和流媒体视频生成……
Monocular novel-view synthesis 长期以来一直需要 multi-view image pairs 作为 supervision,这限制了 training data scale 和 diversity。我们认为这并非必要……
事件相机以微秒级分辨率捕捉每像素的亮度变化,提供在 RGB 帧之间丢失的连续运动信息。然而,现有的...
标准评估实践假设大型语言模型(LLM)的输出在任务的上下文等价表述下是稳定的。这里,我们对这一假设进行测试……
具备代理能力的多模态大语言模型(MLLMs)(例如 OpenAI o3 和 Gemini Agentic Vision)通过迭代的视觉……展现出卓越的推理能力。
需求工程是软件开发过程中的一个关键但劳动密集的阶段。本文介绍了 ReqFusion:一个 AI 增强的系统 th...
Video-Action Models(VAMs)已成为具身智能的有前景框架,通过从原始视频流中学习隐式世界动态来生成 t...
近期 diffusion-based 模型在 image inpainting 中实现了 photorealism,但需要大量 sampling steps,限制了实际使用。Few-step text-to-image 模型的……
我们研究在满足线性 Bellman 完备性的马尔可夫决策过程(MDPs)中使用线性函数逼近的强化学习(RL)——一个基础…
AI驱动的网络安全系统在跨环境部署时常因碎片化的、以事件为中心的遥测表示而失败。我们介绍了Canon……
TRAP 协议通过将可追责共识与一次性 BFTCR 最终化阶段相结合,解决了理性一致性问题。我们提出了 SNARE(Scalable Nash Agreeme...)。
Mutation testing 是一种通过向程序中引入人工故障来评估测试套件有效性的技术。虽然 Mutation testing 插件是……
将机器学习(ML)算法集成到物联网(IoT)应用中,已经带来了显著的优势,同时也引入了漏洞 t...
机器学习模型在部署后常常需要适应新的数据,因为现实世界的结构化或非结构化动态。持续学习(Continual Learning,CL)框架……
规模化强化学习(RL)已显示出在提升大型语言模型(LLMs)推理能力方面的强大潜力,尤其是在需要……的任务中。
现有的多模态大语言模型(MLLMs)在 3D 空间推理方面存在困难,因为它们未能构建 3D 环境的结构化抽象……
用于离散域(如图)的 Energy-based models 明确捕获相对似然,自然能够实现可组合的 probabilistic inference 任务……
构建面向数据库的自然语言接口(NLIDB)的任务,最近在数据库领域和自然语言处理领域都受到了广泛关注。
提高数据利用效率对于在生成轨迹成本高昂的长期任务中扩展强化学习(RL)至关重要。如何……
Temporal Relation Extraction (TRE) 需要识别两个事件或时间表达式在时间上的关系。现有的基于注意力的模型通常高亮……
LLMs 在全球部署,但其响应倾向于拥有丰富训练数据的文化。现有的文化本地化方法,如 prompti...
Benchmarks 和 leaderboards 是 NLP 最常用来传达进展的方式,但在 LLM 时代,它们越来越容易被误读。分数可能反映 benchmark……
集中式身份管理系统持续面临安全和隐私挑战,促使人们探索去中心化身份(Decentralized Identity,DI)和 S...
大型语言模型(LLMs)在学术研究和更广泛的社会应用中发挥着关键作用。LLMs 正日益被用于软件测试……