Source

arXiv

4611 posts from this source

排序:

2周前 · ai · - · -

[Paper] 只差一个 Token 即崩溃：指令调优的帮助性脆弱性

Instruction-tuned 大型语言模型产生有帮助、结构化的响应，但当受到微不足道的约束时，这种帮助性有多稳健？我们展示了简…

#research #paper #ai #machine-learning #nlp
2周前 · software · - · -

[Paper] 个性化 LLM 驱动的对话式编程助手

大型语言模型（LLMs）在驱动各种软件工程（SE）工具方面展现了巨大的潜力。提供自然语言作为一种直观的交互……

#research #paper #software
2周前 · ai · - · -

[Paper] PolicyLLM：面向大型语言模型的公共政策卓越理解

大型语言模型（LLMs）正日益被整合到现实世界的决策中，包括公共政策领域。然而，它们的能力去理解…

#research #paper #ai #nlp
2周前 · ai · - · -

[Paper] LogicEval：用于评估真实世界软件中逻辑漏洞的自动修复技术的系统化框架

逻辑漏洞在软件中源于 program logic 的缺陷，而不是 memory safety，这可能导致关键的 security failures。虽然现有的 …

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 因果扩散模型用于纵向数据中的反事实结果分布

预测 longitudinal data 中的 counterfactual outcomes，尤其是当 sequential treatment decisions 严重依赖于不断演变的 patient states 时，既关键又极具挑战性。

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] ROSE：面向意图的 NL2SQL 评估指标

执行准确率（EX），一种广泛用于评估自然语言转SQL（NL2SQL）解决方案有效性的指标，正变得越来越不可靠……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] Parallax：为什么思考的 AI 代理绝不能行动

自主 AI 代理正迅速从实验工具转变为运营基础设施，预计 80% 的企业应用将……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] GlotOCR Bench：OCR 模型仍在少数 Unicode 脚本之外挣扎

光学字符识别（OCR）随着视觉语言模型的兴起而迅速发展，但评估仍然集中在少数几个……

#research #paper #ai #nlp #computer-vision
2周前 · ai · - · -

[论文] 概率特征插补与不确定性感知多模态联邦聚合

多模态联邦学习实现了在医疗机构之间进行隐私保护的协作模型训练。然而，一个根本性的挑战出现了……

#research #paper #ai #computer-vision
2周前 · ai · - · -

优化方法的演进：算法、场景与评估

在 deep learning 优化中，平衡收敛速度、泛化能力和计算效率仍然是一个核心挑战。First-order gradient…

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 验证税：稀有错误情境下 AI 审计的基本限制

在深度学习中被引用最多的校准结果——在 CIFAR-100 上的 post-temperature-scaling ECE 为 0.012（Guo et al., 2017）——低于统计噪声的...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] Parcae：稳定循环语言模型的尺度定律

传统的固定深度架构通过增加训练 FLOPs 来提升质量，通常通过增加参数化（parameterization），但代价是更高的内存……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[论文] MoshiRAG：异步知识检索用于全双工语音语言模型

Speech-to-speech language models 最近出现，以提升对话式 AI 的自然度。特别是，full-duplex models 通过 t...

#research #paper #ai #nlp
2周前 · ai · - · -

[Paper] MetFuse：隐喻与转喻之间的形象融合

Metonymy 和 metaphor 常常在自然语言中共现，但计算工作大多是孤立地研究它们。我们提出了一个将……转化的框架。

#research #paper #ai #nlp
2周前 · ai · - · -

[Paper] CoDe-R：使用 LLMs 通过 Rationale Guidance 与 Adaptive Inference 精炼 Decompiler 输出

二进制反编译是一项关键的逆向工程任务，旨在从已剥离的可执行文件中重建高级源代码。虽然 Large Language Model...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 往返翻译揭示前沿多语言基准的盲点

多语言基准指导前沿模型的开发。然而，前沿模型报告的多语言评估结构类似于流行的...

#research #paper #ai #machine-learning #nlp
2周前 · devops · - · -

[Paper] 迈向线性代数式 Hypervisor

许多程序合成、超优化和数组编程技术需要对通用程序进行并行展开。GPU，虽然能够…

#research #paper #devops
2周前 · software · - · -

[Paper] 评估 LLMs 代码推理在真实世界情境下

代码推理任务在评估大型语言模型（LLMs）方面变得日益关键。然而，大多数现有基准测试依赖于简化的、由LLM生成的代码片段……

#research #paper #software
2周前 · ai · - · -

[Paper] Neural Cellular Automata 中吸引子的稳定性与几何

在关于神经元细胞自动机（NCAs）的文献中，通常理所当然地认为这些系统会学习吸引子。这一点通过演化 th...

#research #paper #ai
2周前 · devops · - · -

[Paper] EPAC：最后的舞蹈

本文介绍了 EPAC，这是一款基于 RISC-V 的加速器芯片，作为欧洲处理器计划（EPI）多年度、多合作伙伴努力的一部分而开发。

#research #paper #devops
2周前 · devops · - · -

[Paper] 智能资源预测用于 SAP HANA 持续集成构建工作负载

大型企业通常在大型、异构的计算集群上运行广泛的持续集成（CI）流水线，在这些环境中，保守的、静态定义的……

#research #paper #devops
2周前 · software · - · -

[Paper] 定价驱动的资源分配在计算连续体

在计算连续体上部署应用程序需要从地理分布且异构的环境中选择基础设施节点，……

#research #paper #software
2周前 · software · - · -

[论文] LLMs 并非灵丹妙药：软件公平性案例研究

公平性是与人类相关的高风险软件系统的关键需求，推动了对偏差缓解的大量研究。先前的工作主要关注...

#research #paper #software
2周前 · devops · - · -

[Paper] 超越预训练：基础模型在 HPC 系统上的完整生命周期

大规模的基础模型（Foundational Models，FM）预训练构成了一个计算密集型的第一阶段，以实现人工智能在多样的科学和社会领域的应用……

#research #paper #devops
2周前 · devops · - · -

[Paper] 一举三得：通过零阶优化在无线网络上对 LLM 微调解决通信‑内存‑隐私三难困境

联邦学习（FL）为在边缘协同微调大型语言模型（LLMs）提供了一条有前景的路径；然而，这一范式面临着…

#research #paper #devops
2周前 · ai · - · -

[Paper] 超越输出正确性：对大语言模型在编码任务中的推理进行基准测试与评估

大型语言模型（LLMs）越来越依赖显式推理来解决编码任务，但评估此类推理的质量仍然具有挑战性。Ex...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] GeM-EA：生成式和元学习增强的进化算法用于流式数据驱动优化

流式数据驱动优化（SDDO）问题在许多应用中出现，这些应用中数据持续到达，且优化环境随时间演变……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] Vibe Coding 是未来吗？对 LLM 生成代码在建筑安全中的实证评估

vibe coding 的出现，这是一种范式，非技术用户通过自然语言指示大型语言模型（LLMs）生成可执行代码，预…

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] Local-Splitter：七种降低云端 LLM Token 使用的策略在 Coding-Agent 工作负载中的测量研究

我们系统性地测量了七种策略，以在小型本地模型可以作为前置分流层的情况下，减少云端 LLM 的 token 使用量。

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] CodeSpecBench：对LLMs进行可执行行为规范生成的基准测试

大型语言模型（LLMs）可以根据自然语言生成代码，但它们在多大程度上捕捉到预期的程序行为仍不清楚。Executable...

#research #paper #ai #nlp
2周前 · ai · - · -

[Paper] 去中心化学习通过带跳跃的随机游走

我们研究在网络上进行去中心化学习的情形，其中数据分布在各节点上，没有中心协调者。Random walk learning 是一种基于 token 的方法……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] Socrates Loss: 通过利用未知统一置信度校准与分类

深度神经网络尽管具有很高的准确率，但往往表现出置信度校准不足，限制了它们在高风险应用中的可靠性。当前的…

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] EMBER：基于混合 LLM 架构的学习型 Spiking Neural Network 动力学实现自主认知行为

我们提出 (Experience‑Modulated Biologically‑inspired Emergent Reasoning)，一种混合认知架构，重新组织大型语言模型之间的关系……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[论文] AI 能检测生命吗？来自人工生命的启示

现代机器学习方法已被提出用于检测外星样本中的生命，利用其区分生物性与非生物性样本的能力。

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 谁处理方向？特征匹配中的不变性研究

在3D计算机视觉中，寻找图像之间的匹配关键点是一个核心问题。然而，现代匹配器在处理大幅平面旋转时表现不佳。A straightfo...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 基于物理的状态空间模型用于离网系统的可靠太阳辐照预测

自主离网光伏系统的稳定运行要求依赖遵循大气热力学的太阳能预测算法。Cont...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] OmniShow：统一多模态条件以实现人-物体交互视频生成

在本工作中，我们研究了人-物交互视频生成（Human-Object Interaction Video Generation，HOIVG），其目标是基于 t 合成高质量的人-物交互视频。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 心理概念神经元：神经控制偏差探测与迁移生成能在LLM中实现吗？

利用诸如大五人格等心理构念，大语言模型（LLMs）可以模仿特定的个性特征并预测用户的个性。Wh...

#research #paper #ai #nlp
2周前 · ai · - · -

[Paper] SyncFix：通过多视图同步修复 3D 重建

我们提出了 SyncFix，一个在基于扩散的重建场景细化过程中强制跨视图一致性的框架。SyncFix 将细化……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] ClawGuard：针对间接提示注入的工具增强型 LLM 代理运行时安全框架

Tool-augmented Large Language Model (LLM) agents 已经展示了在自动化复杂、多步骤真实世界任务方面的惊人能力，但仍然存在脆弱性……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] HDR 视频生成通过潜在对齐与对数编码

High dynamic range (HDR) 图像提供了对场景辐射的丰富且忠实的表示，但由于其不匹配……，对 generative models 仍然具有挑战性。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] LMMs 与对象中心视觉的结合：理解、分割、编辑与生成

大型多模态模型（LMMs）在通用视觉-语言理解方面取得了显著进展，然而，它们在需要 p... 的任务上仍然受限。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] GenTac：生成建模与足球战术预测

对 open-play soccer tactics 的建模是一项艰巨的挑战，因为比赛具有 stochastic、multi-agent 的特性。现有的计算方法通常 p...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] HistLens：跨概念和语料库的思想变化映射

语言变化既反映又塑造社会过程，而基础概念的语义演变提供了历史和社会的可衡量痕迹。

#research #paper #ai #nlp
2周前 · ai · - · -

[Paper] 高斯分布之间的 KL Divergence：变分自编码器目标的逐步推导

Kullback-Leibler (KL) divergence 是信息论中的一个基本概念，用于量化两个概率分布之间的差异。在 the co...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 随机矩阵和确定性矩阵上一阶方法的普适性

通用一阶方法（GFOM）是一类灵活的迭代算法，通过矩阵‑向量乘法和逐元素非线性操作来更新状态向量。

#research #paper #ai #machine-learning
2周前 · devops · - · -

[Paper] Nanvix：面向高密度 Serverless 部署的多内核操作系统设计

Serverless 提供商通过优化 deployment density 来实现高 resource utilization：即每台 host server 上可以部署多少应用程序。然而，achi...

#research #paper #devops
2周前 · ai · - · -

[Paper] Winner-Take-All 脉冲 Transformer 用于语言建模

Spiking Transformers 将 Transformers 的可扩展性与 Spiking Neural Networks (SNNs) 的稀疏、节能特性相结合，已实现……

#research #paper #ai

Newer posts

Older posts