Source

arXiv

4663 posts from this source

排序:

2个月前 · ai · - · -

[Paper] ISD-Agent-Bench：用于评估基于LLM的教学设计代理的综合基准

大型语言模型（LLM）代理在自动化教学系统设计（ISD）方面展现出有希望的潜力，教学系统设计是一种系统化的教育开发方法……

#research #paper #ai #nlp
2个月前 · ai · - · -

[Paper] MindPilot：闭环视觉刺激优化用于脑调制的 EEG 引导 Diffusion

虽然大多数 brain-computer interface 研究侧重于将 neural signals 解码为 behavior 或 intent，但相反的挑战是使用 controlled stimuli 来……

#research #paper #ai
2个月前 · ai · - · -

[论文] Chamfer-Linkage 用于层次凝聚聚类

层次聚合聚类（Hierarchical Agglomerative Clustering，HAC）是一种广泛使用的聚类方法，基于反复合并最近的一对簇，依据簇间距离……

#research #paper #ai #machine-learning
2个月前 · devops · - · -

[Paper] 相对于网络架构的全局分布式协议的可实现性

Global protocols 从鸟瞰视角指定分布式、message‑passing 协议，并用作 synthesizing 本地实现的 specification。

#research #paper #devops
2个月前 · devops · - · -

[Paper] 以执行为中心的 FP8 矩阵核心、异步执行与结构化稀疏性在 AMD MI300A 上的特性分析

AMD MI300A APU 将 CDNA3 GPU 与高带宽内存和先进的加速器特性集成在一起：FP8 矩阵核心、异步计算引擎（ACE），以及……

#research #paper #devops
2个月前 · ai · - · -

【论文】KORAL：知识图谱引导的 LLM 推理用于 SSD 运营分析

固态硬盘（SSD）对数据中心、消费平台和关键任务系统至关重要。然而，诊断它们的性能和可靠性却非常困难……

#research #paper #ai #machine-learning
2个月前 · ai · - · -

[Paper] ImprovEvolve：让 AlphaEvolve 改进输入解并即兴创作

近期在 LLM 引导的进化计算，特别是 AlphaEvolve 方面的进展，已经展示了在发现新颖数学构造方面的显著成功……

#research #paper #ai #machine-learning
2个月前 · ai · - · -

[Paper] 盲点中的偏见：检测 LLMs 未提及的内容

大型语言模型（LLMs）经常提供看似合理的链式思考（CoT）推理轨迹，但可能隐藏内部偏见。我们将这些称为 *unverbalized* …

#bias detection #large language models #machine learning research #fairness #explainability
2个月前 · ai · - · -

[Paper] SAGE：可扩展的代理式3D场景生成用于具身AI

现实世界中为具身代理收集数据仍然成本高且不安全，这需要可扩展、逼真且可直接用于模拟器的 3D 环境。然而，现有的……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 量子多重旋转平均

Multiple rotation averaging (MRA) 是 3D 视觉和机器人领域的一个基础优化问题，旨在恢复全局一致的绝对旋转 fr...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Olaf-World：面向视频世界建模的潜在动作定向

扩展 action‑controllable world models 受限于动作标签的稀缺。虽然 latent action learning 有望从 u… 提取 control interfaces。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] VideoWorld 2：从真实世界视频中学习可迁移的知识

从未标记的视频数据中学习可迁移的知识并将其应用于新环境，是智能体的一项基本能力。该工作预…

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 面向可解释的联邦学习：理解差分隐私的影响

数据隐私和可解释人工智能（XAI）是现代机器学习系统的两个重要方面。为了增强数据隐私，最近的机器…

#research #paper #ai #machine-learning
2个月前 · ai · - · -

[Paper] 在流形上学习：利用表示编码器解锁标准 Diffusion Transformers

利用表示编码器进行生成建模提供了一条实现高效、高保真合成的路径。然而，标准的 diffusion transformers 未能…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] VLA-JEPA：增强视觉-语言-动作模型的潜在世界模型

在互联网规模的视频上进行视觉-语言-动作（VLA）策略的预训练很有吸引力，但当前的潜在动作目标往往学习错误的东西：它们……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] 循环 Transformer 的步级数据归因

我们研究单个训练样本如何塑造循环变换器的内部计算，其中共享块被应用于 τ 次递归迭代到 e...

#research #paper #ai #machine-learning
2个月前 · ai · - · -

[Paper] Quantum-Audit：评估LLMs在量子计算上的推理极限

语言模型已成为量子计算教育和研究的实用工具，从摘要技术论文到解释理论概念等。

#research #paper #ai #nlp
2个月前 · ai · - · -

[Paper] 图像拼接和复制移动伪造能否用同一模型检测？Forensim：基于注意力的状态空间方法

我们介绍了 Forensim，这是一种基于注意力的状态空间框架，用于图像伪造检测，可同时定位被篡改（目标）区域和源区域……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Vendi Novelty Scores 用于分布外检测

Out-of-distribution (OOD) 检测对于机器学习系统的安全部署至关重要。现有的后置检测器通常依赖于模型置信度……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 长链式思考压缩 via 细粒度 Group Policy Optimization

大型语言模型（LLMs）经常生成不必要冗长的Chain-of-Thought（CoT）推理，这会增加计算成本和延迟，却没有相应的收益……

#research #paper #ai #machine-learning
2个月前 · software · - · -

[Paper] Artisan：Agentic Artifact Evaluation

Artifact evaluation 已成为软件工程社区的标准实践，以确保研究结果的可重复性。然而，当前的 m...

#research #paper #software
2个月前 · ai · - · -

[Paper] 乐观World Models：在基于模型的深度强化学习中的高效探索

高效探索仍然是强化学习（RL）的核心挑战，尤其是在稀疏奖励环境中。我们引入 Optimistic World Mode……

#research #paper #ai #machine-learning
2个月前 · ai · - · -

[论文] TREC 2025 RAGTIME 赛道概述

RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 赛道在 TREC 的主要目标是研究从多语言源文档生成报告……

#research #paper #ai #nlp
2个月前 · ai · - · -

[Paper] MEVER：多模态可解释的声明验证与基于图的证据检索

验证主张的真实性通常需要对文本和视觉证据进行联合多模态推理，例如分析文本标题……

#research #paper #ai #nlp
2个月前 · ai · - · -

[Paper] SCORE：特异性、上下文利用、鲁棒性和相关性用于无参考 LLM 评估

大型语言模型（LLMs）正日益用于在高风险、特定领域的环境中支持问答和决策，例如 natural ha...

#research #paper #ai #nlp
2个月前 · ai · - · -

[Paper] ViSpeechFormer：一种用于越南语自动语音识别的音位方法

越南语采用音位正字法，每个 grapheme 最多对应一个 phoneme，反之亦然。利用这种高度的 grapheme‑phoneme 透明性……

#research #paper #ai #nlp
2个月前 · ai · - · -

[Paper] 对神经语言模型的刺激贫乏论的统一评估

儿童如何在有限的输入下获得母语水平的句法？根据刺激贫乏假设（PoSH），儿童接收到的语言输入……

#language-models #syntactic-evaluation #poverty-of-stimulus #transformers #benchmark
2个月前 · software · - · -

[Paper] Environment-in-the-Loop：重新思考使用 LLM-based Agents 的代码迁移

现代软件系统不断进行代码升级，以提升功能、安全性和性能，而大型语言模型（LLMs）已经展示……

#research #paper #software
2个月前 · software · - · -

[Paper] QEMI：一种基于等价模输入的量子软件栈测试框架

随着量子算法和硬件的不断发展，确保量子软件栈（QSS）的正确性变得日益重要。然而，...

#research #paper #software
2个月前 · software · - · -

[Paper] JMigBench：用于评估 LLM 在源代码迁移（Java 8 到 Java 11）上的基准

我们构建了一个基准，用于评估大型语言模型（LLMs）在源代码迁移任务中的表现，特别是将函数从 Java 8 升级到 Java 11。我们首先……

#research #paper #software
2个月前 · software · - · -

[Paper] 在伦理感知自主系统的需求工程过程中的人类价值观操作化

在功能和适应性需求的同时，将人类价值观进行操作化仍然具有挑战性，因为它们具有模糊性、多元性和上下文依赖性……

#research #paper #software
2个月前 · software · - · -

[Paper] 沉浸于 GitHub 宇宙：将编码代理规模化以实现精通

在现实世界的软件工程任务中实现精通，根本受限于大规模、高质量训练数据的稀缺。规模化……

#research #paper #software
2个月前 · ai · - · -

[Paper] 能源公司中的 Generative AI 采用：探索挑战与使用案例

组织正在研究生成式 AI 如何支持其运营工作和决策过程。本研究调查了能源…

#generative AI #large language models #AI adoption #energy industry #use case research
2个月前 · ai · - · -

稀疏轴突和树突延迟实现用于关键词分类的竞争性 SNN

在 spiking neural networks (SNNs) 中训练传输延迟已被证明能够显著提升其在复杂时序任务上的性能。在本工作中...

#research #paper #ai
2个月前 · devops · - · -

[Paper] 揭示现代 MoE 模型和硬件系统中 Attention-FFN 拆分的挑战

部署大规模 MoE 模型在专家激活的内存容量和带宽方面面临挑战。虽然 Attention-FFN Disaggregation (AFD) 已经出现……

#research #paper #devops
2个月前 · ai · - · -

[Paper] 从轻量级CNN到SpikeNets：使用剪枝的Spiking SqueezeNet进行准确性‑能耗权衡基准测试

脉冲神经网络（SNN）正日益被研究作为卷积神经网络（CNN）的节能替代方案，尤其适用于边缘智能。

#spiking neural networks #energy efficiency #model pruning #lightweight CNNs #computer vision benchmark
2个月前 · software · - · -

[Paper] SWE-Bench Mobile：大型语言模型代理能开发行业级移动应用吗？

大型语言模型代理能开发工业级移动应用吗？我们推出了 SWE‑Bench Mobile，这是一项用于在真实环境中评估编码代理的基准测试……

#research #paper #software
2个月前 · ai · - · -

Rashomon Sets 与联邦学习中的模型多样性

Rashomon 集合捕捉了那些实现几乎相同经验性能，但在决策边界上可能有显著差异的模型集合。...

#research #paper #ai #machine-learning
2个月前 · software · - · -

[Paper] 走向将被拒提案与源代码关联：对 Go 仓库的探索性研究

可追溯性链接是软件开发人员的重要信息来源，连接软件工件（例如，将需求链接到相应的源代码……）。

#research #paper #software
2个月前 · devops · - · -

[Paper] 如果不被抓到就不是谎言：通过脏日志简化 SMR 中的重新配置

生产级 state-machine replication (SMR) 实现是复杂的、多层架构，包含数据分发、排序、执行和恢复……

#research #paper #devops
2个月前 · devops · - · -

[Paper] 协同准则

何时需要在分布式规范中本质上要求 coordination，而不是由特定 protocol 或 implementation strategy 强加？我们给出一个 g...

#research #paper #devops
2个月前 · devops · - · -

[Paper] LLM-CoOpt：面向异构平台的高效 LLM 推理协同设计与优化框架

在 LLMs 推理中，主要挑战仍然是频繁的 memory bandwidth 瓶颈、computational redundancy，以及 long‑sequence processing 的低效。为了 ad...

#research #paper #devops
2个月前 · devops · - · -

[Paper] Harvest：用于规模扩展域集体通信的自适应光子交换调度

随着芯片间硅光子技术因其带宽和能效而受到关注，其电路交换的特性为研究人员提出了一个根本性的问题……

#research #paper #devops
2个月前 · devops · - · -

[Paper] ALPHA-PIM：线性代数处理在真实 Processing-In-Memory 系统上的高性能图应用分析

处理大规模图数据集计算密集且耗时。以处理器为中心的 CPU 和 GPU 架构，通常用于图应用……

#research #paper #devops
2个月前 · ai · - · -

[Paper] WorldCompass：强化学习用于长时程世界模型

本工作提出了 WorldCompass，这是一种新颖的强化学习（RL）后训练框架，针对长期、交互式基于视频的世界模型，能够……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 鲁棒性是函数，而非数值：对视觉驱动中 OOD 鲁棒性的因式化综合研究

在自动驾驶中，分布外（OOD）鲁棒性常常被简化为一个单一数字，掩盖了导致策略失效的因素。我们沿着五…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] Raster2Seq: 用于平面图重建的多边形序列生成

从栅格化的平面图像中重建结构化的矢量图形表示通常是计算任务的一个重要前提条件，涉及……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 下一代 CAPTCHA：利用认知差距实现可扩展且多样化的 GUI-Agent 防御

GUI-enabled agents的快速演进已经使传统的CAPTCHA变得过时。虽然之前的基准测试如OpenCaptchaWorld为…

#research #paper #ai #machine-learning #nlp

Newer posts

Older posts