paper — Page 2 | EUNO.NEWS

排序:

4天前 · ai · - · -

[Paper] 为什么全球 LLM Leaderboards 具有误导性：针对异构监督式 ML 的小型组合

通过成对人工反馈对 LLM 进行排名是当前开放式任务（如创意写作和问题解决）排行榜的基础。我们分析了约 89K 次比较……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[论文] 优化器-模型一致性：使用与预训练相同的优化器进行全微调可减少遗忘

优化器在训练大型语言模型（LLMs）的预训练和微调阶段都扮演着重要角色。在本文中，我们提出了一项观察……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 当不存在基准时：在没有真实标签的情况下验证比较 LLM 安全评分

许多部署必须在相关语言、行业或监管制度的标记 benchmark 出现之前，对候选 language models 的安全性进行比较。我们……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] AI协同数学家：利用Agentic AI加速数学家

我们介绍了 AI co-mathematician，一个为数学家提供交互式利用 AI 代理开展开放式研究的工作台。AI co-mathematician …

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 超越负向回滚：仅正向策略优化与隐式负梯度

强化学习与可验证奖励（RLVR），由于确定性验证，已成为提升……推理能力的主导范式。

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] Superintelligent Retrieval Agent：信息检索的下一前沿

检索增强代理正日益成为大型组织知识库的接口，但大多数仍将检索视为黑箱：它们发出 exp...

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] Inductive Venn-Abers 及相关回归器

Venn‑Abers 预测器是具有吸引人有效性属性的概率预测器，但它们的主要限制是仅适用于 t……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 针对成熟发色团区域的边缘特异性信号传播的3D机制图用于荧光蛋白量子产率预测

荧光蛋白的量子产率（QY）主要受成熟的发色团及其三维微环境的影响，而不仅仅取决于序列本身。

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 我们在多模态领域泛化方面取得进展了吗？一项综合基准研究

尽管多模态领域泛化（MMDG）在提升模型鲁棒性方面日益受到关注，但尚不清楚报告的性能提升是否……

#research #paper #ai #machine-learning #computer-vision
4天前 · ai · - · -

[Paper] StraTA：通过战略轨迹抽象激励代理式强化学习

大型语言模型（LLMs）正日益被用作交互式代理，但由于当前……，优化它们在长期决策中的表现仍然困难。

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] GlazyBench：用于陶瓷釉属性预测和图像生成的基准

开发陶瓷釉料是一项成本高、耗时的反复试验过程，因为其化学成分复杂，这给独立艺术家带来了沉重的负担。……

#research #paper #ai #machine-learning #computer-vision
4天前 · ai · - · -

[Paper] 递归代理优化

我们引入递归代理优化（Recursive Agent Optimization，RAO），这是一种用于训练递归代理的强化学习方法：代理能够生成并委派子任务……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 强化学习能教会大语言模型进行长时程推理吗？表达能力是关键

强化学习（RL）已被用于提升大语言模型（LLM）的推理能力，然而关于训练规模如何随任务难度……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] DPM++：用于遮挡行人再识别的动态掩码度量学习

尽管行人再识别已经取得了显著进展，但障碍物导致的遮挡仍然是实际应用中未解决的问题。困难在于...

#research #paper #ai #computer-vision
4天前 · ai · - · -

[Paper] 被引用但未验证：LLM 深度研究代理中的来源归属解析与评估

大型语言模型（LLMs）驱动深度研究代理，将来自数百个网络来源的信息综合成带引用的报告，但这些引用无法……

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] Parser 在 L2 Korean UD 中的一致与分歧：对 human-in-the-loop 标注的启示

我们提出了一种简化的 human-in-the-loop 工作流，用于第二语言 (L2) 韩语形态句法标注，通过利用两个 domain-adapted … 的一致性。

#research #paper #ai #nlp
4天前 · ai · - · -

[Paper] MASPO：面向基于LLM的多智能体系统的联合提示优化

基于大语言模型（LLM）的多智能体系统（MAS）在处理复杂协作任务方面展现出前景，其中智能体通常通过…

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] SoftSAE：用于自适应稀疏自编码器的动态 Top‑K 选择

稀疏自编码器（SAEs）已成为机制可解释性中的重要工具，帮助分析大型语言模型中的内部表征……

#research #paper #ai #machine-learning #computer-vision
4天前 · ai · - · -

[Paper] DINORANKCLIP：DINOv3 蒸馏与注入用于视觉语言预训练的高阶排序一致性

对比语言-图像预训练（CLIP）存在两个结构性弱点：对称的InfoNCE损失会丢弃未匹配项之间的相对顺序……

#research #paper #ai #machine-learning #computer-vision
4天前 · ai · - · -

[Paper] 使用基于FFT的插值在不进行矩阵求逆的情况下求解最小问题

估计相机几何通常涉及求解最小问题，这些问题被表述为多变量多项式方程组，而这些方程组往往在计算上极具挑战性。代数几何提供了一套强大的工具来分析和求解此类方程，例如 Gröbner bases、数值同伦 continuation 和 resultant 方法。然而，这些方法在数值稳定性、计算复杂度以及对噪声和离群点的鲁棒性方面仍存在显著限制。在实际应用中，常常需要在保持高精度的同时实现实时性能，这促使研究者探索混合符号-数值技术、稀疏矩阵分解以及基于随机采样的 RANSAC 框架的改进。近年来，深度学习驱动的端到端模型也被用于近似求解相机姿态和内参，但它们往往缺乏可解释性和对几何约束的严格遵守。因此，当前的研究重点在于：① 开发更高效的 Gröbner basis 计算算法，以利用问题的结构稀疏性；② 设计稳健的数值求解器，能够在存在噪声和离群点的情况下保持收敛性；③ 将代数几何方法与机器学习预测相结合，形成既具几何解释又具计算速度的混合系统。通过这些方向的深入探索，有望在相机标定、三维重建和增强现实等领域实现更可靠且高效的几何估计。

#research #paper #ai #computer-vision
4天前 · ai · - · -

[Paper] CLAD：一种聚类标签无关的联邦学习框架，用于联合异常检测和攻击分类

物联网（IoT）和工业物联网（IIoT）的快速扩展已经创建了一个庞大且异构的攻击面，挑战了传统的…

#research #paper #ai #machine-learning
4天前 · ai · - · -

[论文] 连续潜在扩散语言模型

大型语言模型在自回归范式下取得了显著成功，然而高质量的文本生成并不一定必须绑定在固定的左到右……

#research #paper #ai #machine-learning #nlp #computer-vision
4天前 · devops · - · -

[Paper] CCL-Bench 1.0：基于追踪的LLM基础设施基准

关于 LLM 基础设施的评估性声明——“工作负载 X 在 hardware Y 上使用 software Z 时最快”——取决于跨越硬件……

#research #paper #devops
4天前 · devops · - · -

[论文] ROSE：通过协作弹性在服务 GPU 上进行 Rollout 用于 Agentic RL

Agentic reinforcement learning（RL）已成为提升 LLM 多步推理和工具使用能力的关键驱动力。然而，它的效率...

#research #paper #devops
4天前 · software · - · -

[Paper] Agent生成代码在多大程度上需要维护？一项实证研究

基于LLM的自主编码代理已经重塑了软件开发。虽然这些代理在代码生成方面表现出色，但关于长期……仍然存在未解之问。

#research #paper #software
4天前 · ai · - · -

[Paper] 约束衰减：LLM 代理在后端代码生成中的脆弱性

大型语言模型（LLM）代理在宽松规格下的自主代码生成方面表现出强大的性能。然而，生产级软件的…

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 因果涌现对齐假设：因果涌现与强化学习代理的最终奖励保持一致并可预测

地球上生命的一个标志是主体能够施加因果力量并驱动后续事件的能力。这是所有层次认知的关键。因果 e...

#research #paper #ai
4天前 · devops · - · -

[Paper] ResiHP：用动态混合驯服 LLM 训练失败

混合并行是支撑跨数万块 GPU 的大规模 LLM 训练的基础。在如此规模下，单个设备的硬件故障会导致性能...

#research #paper #devops
4天前 · ai · - · -

[Paper] 从 Agent Loops 到 Deterministic Graphs：Execution Lineage 用于 Reproducible AI-Native Work

Large language model systems 正在越来越多地作为 agentic workflows 部署，交织推理、tool use、memory 和 iterative refinement。这些系统……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] CoupleEvo：使用大语言模型进化耦合优化问题的启发式方法

许多现实世界的优化问题由多个紧密耦合的子问题组成，这些子问题的解必须协调一致，以实现整体性能的提升。H...

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 正确代码，易受攻击的依赖：LLM 指定库版本的大规模测量研究

大型语言模型（LLMs）现在在软件开发工作流中广泛参与，它们生成的代码经常包含第三方库（TPL）……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] Safactory：可扩展的代理工厂用于可信的自主智能

随着大型模型从对话助理演变为自主代理，挑战日益来自于长期决策、工具使用以及 rea...

#research #paper #ai #machine-learning
4天前 · software · - · -

[Paper] SiblingRepair：基于Sibling的多块修复与大语言模型

开发者在实现相关功能的代码位置上经常会犯相似的错误。这些位置被称为 siblings，它们共享相似的问题并且 re...

#research #paper #software
4天前 · ai · - · -

[Paper] 通过符号执行轨迹教授 LLMs 程序语义

我们引入了一个评估框架，涵盖 500 个 C 语言验证任务，涉及五类属性（memory safety、overflow、termination、reachability、data races）...

#research #paper #ai #machine-learning
4天前 · software · - · -

[Paper] 建模维护活动变化的依赖传播生态系统影响：评估 PyPI 网络中的支持策略

背景：开源软件生态系统呈现出密集的依赖网络，其中结构中心包的维护退化可能会传播……

#research #paper #software
4天前 · ai · - · -

[Paper] 超越准确性：政策不变性作为 LLM 安全评审员的可靠性测试

LLM-as-a-Judge 流程已成为代理安全的事实评估器，然而现有基准在未进行检查的情况下将它们的裁决视为 ground-truth 代理。

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] BUILD-AND-FIND：一种面向工作量感知的评估代理管理代码库的协议

大多数 coding-agent benchmarks 会询问 generated code 是否表现正确。这仍然是关键，但 repository-level engineering 正在日益 agent-manage……

#research #paper #ai #machine-learning
4天前 · software · - · -

[Paper] 破坏、陈旧或缺失？基准测试 Coding Agents 在 Project-Level Test Evolution 上

随着生产代码的演进，测试套件必须同步演进以保持有效性。现有的测试演进基准在方法级别的粒度上运行，使用 p...

#research #paper #software
4天前 · devops · - · -

[Paper] TACO：用于 Threshold Automata 验证的工具套件

我们介绍 TACO，一个用于开发和自动验证容错和阈值型分布式算法的工具套件。我们的工具套件实现…

#research #paper #devops
4天前 · devops · - · -

[Paper] 解决 LLM 服务中的数据并行负载均衡瓶颈：大规模实用在线路由

数据并行（DP）负载均衡已成为大规模 LLM 服务中的首要瓶颈。当模型通过张量并行在设备之间进行切分时……

#research #paper #devops
4天前 · ai · - · -

[Paper] VibeServe：AI 代理能否构建定制化 LLM 服务系统？

多年来，我们像对待其他关键基础设施一样构建 LLM 服务系统：一个单一的通用堆栈，经过多年工程师的手工调优，旨在……

#research #paper #ai #machine-learning
4天前 · devops · - · -

[Paper] FalconGEMM：通过低复杂度矩阵乘法超越硬件峰值

Peak breaking Matrix Multiplication 是一种有前景的技术，可提升深度学习（DL）的性能，尤其是在大语言模型（LLM）的训练和推理中。我们提出了 FalconGEMM，...

#research #paper #devops
4天前 · ai · - · -

[Paper] 高容量 Kernel Hopfield 网络中的高效事件驱动检索

高容量关联记忆模型，例如 Kernel Logistic Regression (KLR) Hopfield 网络，已经展示出强大的存储能力，但通常……

#research #paper #ai
4天前 · ai · - · -

[Paper] MDN：并行化逐步动量用于Delta线性注意力

线性注意力（Linear Attention，LA）为将大型语言模型（LLMs）扩展到长序列提供了一种有前景的范式，因为它避免了自注意力的二次复杂度。

#research #paper #ai #machine-learning
5天前 · ai · - · -

[Paper] 图归一化：快速二值化动力学用于可微分 MWIS

我们引入 Graph Normalization（GN），一种在图上工作的原理性动力系统，作为可微分的近似引擎，用于 NP 难的 Maximum Weig...

#research #paper #ai #machine-learning
5天前 · ai · - · -

[Paper] Syn4D：多视角合成4D数据集

从单目视频进行密集的3D 重建和动态场景跟踪仍然是计算机视觉中的一个重要未解决的挑战。该领域的进展已经……

#research #paper #ai #computer-vision
5天前 · ai · - · -

[Paper] 驯服扩散Transformer中的异常Token

我们研究扩散Transformer（DiTs）在图像生成中的异常标记。先前的工作表明，视觉Transformer（ViTs）可以产生少量的……

#research #paper #ai #machine-learning #computer-vision
5天前 · ai · - · -

[Paper] S-LCG：基于结构化线性同余生成器的搜索与优化确定性算法

本研究提出了一种基于线性同余生成器（Linear Congruential Generator, LCG）特殊变体的全新确定性优化算法。虽然传统算法……

#research #paper #ai

Newer posts

Older posts