Source

arXiv

4750 posts from this source

排序:

3个月前 · ai · - · -

[Paper] 用于 Edge GPU-NDP 系统的高效 MoE 推理调度框架

Mixture-of-Experts (MoE) 模型通过将 model capacity 与 active computation 解耦，促进了 edge deployment，然而它们巨大的 memory footprint 推动了需求…

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 使用小语言模型逆向工程机器学习流水线结构

背景：从源代码中提取构成机器学习（ML）流水线的阶段对于深入了解数据科学实践至关重要。

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] Monaas：移动节点即服务用于基于TSCH的工业物联网网络

IEEE802.15.4 标准的 Time-Slotted Channel Hopping (TSCH) 模式为在 fi... 应用中提供超高端到端可靠性和低功耗。

#research #paper #ai
3个月前 · software · - · -

[Paper] 理解基于规范驱动的代码生成与 LLMs：实证研究设计

大型语言模型（LLMs）正日益被整合到软件开发工作流中，然而它们在结构化、规范驱动的流程中的行为仍然…

#research #paper #software
3个月前 · devops · - · -

[Paper] Majorum：潮汐共识与动态法定人数

Dynamic availability 是指共识协议在 honest participants 离线后仍能保持活跃，并在其重新加入后继续运行的能力。一个众所周知的限制……

#research #paper #devops
3个月前 · software · - · -

[Paper] 从前的团队：调查 LLM 驱动的软件团队组成与任务分配中的偏见

LLMs 正在越来越多地用于提升生产力并支持软件工程任务。然而，当它们被用于诸如团队组成等社会敏感的决策时……

#research #paper #software
3个月前 · ai · - · -

[Paper] 评估并改进代码生成基准的代表性：使用编程语言的知识单元（KUs）——实证研究

大型语言模型（LLMs），如 GPT-4、Claude 和 LLaMA，在代码生成方面表现出色，通常使用基准测试（例如 H…）进行评估。

#code generation #LLM benchmarks #knowledge units #Python #evaluation methodology
3个月前 · ai · - · -

[Paper] 从实验室到真实世界的应用：在仓库层面的 Agentic Code Reasoning 基准测试

随着大型语言模型（LLMs）演变为自主代理，评估仓库级别的推理以及在大规模环境中保持逻辑一致性的能力……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 重新思考用于时间序列预测的循环神经网络：一种强化循环编码器与面向预测的近端策略优化

时间序列预测在当代工程信息系统中发挥着关键作用，以支持各行业的决策，其中 Rec...

#research #paper #ai #machine-learning
3个月前 · software · - · -

[Paper] LLM代码生成中的逐字数据转录失败：状态追踪压力测试

许多实际的软件任务需要将提供的数据精确转录到代码中，例如 cryptographic constants、protocol test vectors、allowlists，以及 c...

#research #paper #software
3个月前 · software · - · -

[Paper] 关于公平实践的鲁棒性：用于系统评估的因果框架

机器学习（ML）算法正日益被部署用于在金融、刑事司法和自动…等社会经济应用中做出关键决策。

#research #paper #software
3个月前 · ai · - · -

[Paper] 本地梯度调节在客户端异质性下稳定联邦学习

联邦学习（FL）使得在分布式客户端之间进行协作模型训练而无需共享原始数据，但其稳定性从根本上受到挑战……

#research #paper #ai #machine-learning
3个月前 · devops · - · -

[Paper] 可审计的 DevOps 自动化通过 VSM 和 GQM

DevOps 自动化可以加速软件交付，但许多组织仍然难以在战略项目层面上证明和确定自动化工作的优先级。

#devops automation #value stream mapping #goal-question-metric #DORA metrics #software delivery
3个月前 · ai · - · -

[Paper] 基于强化学习的模型用于使用多尺度 place fields 的映射与目标导向导航

在复杂且部分可观测的环境中实现自主导航仍然是机器人领域的核心挑战。已有若干仿生模型用于映射和导航……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 演化程序化技能网络

我们研究在开放式具身环境中持续技能获取，代理必须构建、完善并重用不断扩展的可执行技能库。

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[论文] 更好，但仍不足：测试视频ANNs对猕猴IT动态

在静态图像上训练的前馈人工神经网络（ANNs）仍然是灵长类动物腹侧视觉通路的主导模型，然而它们本质上……

#research #paper #ai #computer-vision
3个月前 · devops · - · -

[Paper] 重新审视用于低延迟 BFT 复制的投机式无领袖协议

随着拜占庭容错（BFT）协议开始在许可式区块链中用于面向用户的应用，如支付，至关重要的是它们……

#research #paper #devops
3个月前 · ai · - · -

[论文] Muses：设计、构思、生成无需训练的不存在的幻想3D生物

我们提出了 Muses，这是首个在前馈范式下实现奇幻 3D 生物生成的无训练方法。之前的方法依赖于部件感知的 opt...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 数字红皇后：Core War 中的对抗性程序进化与 LLMs

大型语言模型（LLMs）正日益被用于在许多领域中进化问题的解决方案，这一过程受到生物进化的启发。然而……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 自动语义规则检测 (ASRD) 用于新兴通信解释

在 multi-agent systems 中，emergent communication 领域研究 autonomous agents 如何能够独立地发展 communication strategies，而无需显式...

#research #paper #ai #nlp
3个月前 · ai · - · -

[Paper] InfiniDepth：任意分辨率和细粒度深度估计的神经隐式场

现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…

#research #paper #ai #computer-vision
3个月前 · software · - · -

[Paper] NavAI：一种可泛化的 LLM 框架，用于虚拟现实环境中的导航任务

导航是虚拟现实（VR）中自动探索的基本任务之一。现有技术主要关注 360- 中的路径优化。

#research #paper #software
3个月前 · ai · - · -

[Paper] 多功能多模态代理用于多媒体内容生成

随着 AIGC（AI 生成内容）技术的进步，越来越多的生成模型正在革新视频编辑、音乐等领域。

#research #paper #ai #computer-vision
3个月前 · software · - · -

[Paper] 第16届国际图计算模型研讨会论文集

本卷收录了第十六届国际 Graph Computation Models 研讨会（GCM 2025）的后期论文集。研讨会在德国科布伦茨举行，...

#research #paper #software
3个月前 · ai · - · -

[Paper] STReasoner：通过空间感知强化学习赋能LLMs在时间序列中的时空推理

Spatio-temporal reasoning in time series 涉及对 temporal dynamics、spatial dependencies 和 textual context 的显式综合。This capability is vit...

#research #paper #ai #nlp
3个月前 · ai · - · -

[Paper] 自监督学习从噪声和不完整数据

许多科学和工程中的重要问题涉及在已知观测过程的情况下，从噪声和/或不完整的观测中推断信号……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] PET-TURTLE：用于不平衡数据簇的深度无监督支持向量机

基础视觉、音频和语言模型通过其 latent representations 实现对 downstream tasks 的 zero-shot 性能。最近，unsupervised learning…

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] MAGMA：一种基于多图的代理记忆架构用于 AI 代理

Memory-Augmented Generation（MAG）通过外部记忆扩展大型语言模型，以支持长上下文推理，但现有方法在很大程度上依赖于 …

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 浅层电路监督学习在量子处理器上

量子计算长期以来被寄予在数据分析方面实现变革性进步的期待，然而由于根本性的障碍，实用的量子机器学习仍然难以实现。

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[论文] LTX-2：高效联合音频-视觉基础模型

近期的 text-to-video diffusion 模型能够生成引人入胜的视频序列，但它们仍然是无声的——缺失语义、情感和氛围线索……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Multi-RADS 合成放射学报告数据集与 41 种 Open-Weight 与专有语言模型的正面对比基准测试

背景：报告与数据系统（RADS）规范放射学风险沟通，但从叙述性报告中自动分配RADS仍具挑战性，因为……

#research #paper #ai #machine-learning #nlp
3个月前 · ai · - · -

[Paper] 声纳时刻：音频语言模型在音频地理定位中的基准测试

Geo-localization 旨在推断给定信号的地理来源。在计算机视觉中，Geo-localization 已成为一个苛刻的 benchmark，用于 composition……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 假朋友困境：信任与对话式 AI 的政治经济学

随着对话式 AI 系统日益融入日常生活，它们引发了关于用户自主性、信任以及商业利益的紧迫关注。

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 从熵到 Epiplexity：为计算受限的智能重新思考信息

我们能从数据中学到比生成过程本身所包含的更多吗？仅仅通过应用确定性转换，能否构建出新的有用信息？

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] MalruleLib：大规模可执行误解推理与步骤追踪用于建模学生数学思维

学生在数学中的错误往往是系统性的：学习者运用一种连贯但错误的程序，并在不同情境中重复使用。我们介绍 MalruleLib，...

#research #paper #ai #nlp
3个月前 · ai · - · -

[Paper] 评估器引导的强化去学习在文本到图像扩散中的研究

文本到图像扩散模型中的机器遗忘旨在删除特定概念，同时保持整体效用。先前的扩散遗忘方法通常……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 微调小型语言模型作为高效企业搜索相关性标注器

在企业搜索中，规模化构建高质量数据集仍然是一个核心挑战，因为获取标注数据非常困难。为了解决这个挑战……

#research #paper #ai #machine-learning #nlp
3个月前 · ai · - · -

[Paper] UltraLogic：通过大规模数据合成和双极浮点奖励提升LLM推理

虽然大型语言模型（LLMs）在自然语言处理方面展示了显著的潜力，但需要多步骤的复杂通用推理仍然是一个挑战。

#research #paper #ai #machine-learning #nlp
3个月前 · ai · - · -

[Paper] InfiAgent：面向通用自主代理的无限时域框架

LLM 代理能够推理并使用工具，但它们在长时程任务中常常因上下文无限增长和错误累积而崩溃。常见的补救措施，如...

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 反事实公平性与图不确定性

评估机器学习（ML）模型偏差是构建可信赖且稳健的ML系统的关键。反事实公平性（CF）审计允许对b...

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] 通过加权结构对神经网络进行递归查询

对机器学习模型进行表达性查询——将其视为一种 intentional data——能够使用 declarative language 对其进行验证和解释……

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] DIP：动态上下文内规划器用于扩散语言模型

Diffusion language models (DLMs) 已经在带有上下文示例的一般自然语言任务中展示出强大的潜力。然而，由于双向注意力……

#research #paper #ai #machine-learning #nlp
3个月前 · ai · - · -

[Paper] 赋能 MLLMs 中可靠的视觉中心指令跟随

评估多模态大语言模型（MLLMs）的指令遵循（IF）能力对于严格评估模型输出的忠实程度至关重要。

#research #paper #ai #machine-learning
3个月前 · devops · - · -

[Paper] 软件定义的 Agentic 服务

随着 multi-agent LLM pipelines 的复杂性增加，现有的 serving paradigms 无法适应动态的 serving conditions。我们认为，agentic serving system …

#research #paper #devops
3个月前 · ai · - · -

[Paper] 稀疏知识蒸馏：概率域温度缩放和多阶段压缩的数学框架

我们基于概率域软化算子，构建了一个统一的稀疏知识蒸馏理论框架。虽然等价 p^{1/T} ...

#research #paper #ai #machine-learning
3个月前 · ai · - · -

[Paper] X-MuTeST：一个用于可解释仇恨言论检测的多语言基准以及一种新颖的 LLM 咨询解释框架

社交媒体上的 Hate speech detection 在准确性和可解释性方面都面临挑战，尤其是对于尚未深入研究的 Indic languages。我们提出了一种新颖的…

#research #paper #ai #nlp
3个月前 · ai · - · -

[Paper] UniCorn：通过自生成监督实现自我改进的统一多模态模型

虽然统一多模态模型（UMMs）在跨模态理解方面取得了显著成功，但它们在利用 su… 能力方面仍然存在显著差距。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[论文] MemRL：通过运行时强化学习在 Episodic Memory 上实现自我进化的智能体

人类智能的标志是能够通过构建性情景模拟——检索过去的经验以综合解决方案——掌握新技能的能力。

#research #paper #ai #nlp

Newer posts

Older posts