machine-learning

排序:

2天前 · ai · - · -

[Paper] 使用大型语言模型和知识图谱提升制造业机器学习模型的可解释性

以透明且用户友好的方式解释机器学习（ML）结果仍然是可解释人工智能（XAI）的一个挑战性任务。In t...

#research #paper #ai #machine-learning
2天前 · ai · - · -

[Paper] 学习具备洞察的推理用于非形式定理证明

虽然大多数 automated theorem‑proving 方法依赖于 formal proof systems，informal theorem proving 可以更好地与 large language models 的 …

#research #paper #ai #machine-learning #nlp
2天前 · ai · - · -

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

随着 AI-assisted video creation 越来越实用，instruction-guided video editing 已成为细化生成或捕获的 footage 的关键。

#research #paper #ai #machine-learning #nlp #computer-vision
2天前 · ai · - · -

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

越南法律文本的复杂性对公众获取司法构成了显著障碍。虽然Large Language Models提供了一种有前景的解决方案……

#research #paper #ai #machine-learning #nlp
2天前 · ai · - · -

[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

Vision Language models (VLMs) 已在广泛的基准测试中展示了强大的性能，但它们常常受到模态主导的影响，即在预测…

#research #paper #ai #machine-learning #computer-vision
2天前 · ai · - · -

[Paper] 超越表面统计：通过内部表征实现对LLMs的稳健共形预测

大型语言模型正日益在可靠性至关重要的场景中部署，但输出层面的不确定性信号，如 token probabilities、entropy……

#research #paper #ai #machine-learning #nlp
2天前 · ai · - · -

[Paper] JumpLoRA：用于大语言模型持续学习的稀疏适配器

基于适配器的方法已成为对大型语言模型（LLMs）进行持续学习（CL）的成本有效方案，通过顺序学习低秩更新……

#research #paper #ai #machine-learning #nlp
2天前 · ai · - · -

[Paper] AtManRL：通过可微注意力显著性实现可信推理

大型语言模型（LLMs）日益依赖链式思考（CoT）推理来解决复杂任务。然而，确保推理轨迹既能……

#research #paper #ai #machine-learning #nlp
2天前 · ai · - · -

[论文] 混合精度分布式训练的训练时间预测

在分布式深度学习中，准确预测训练时间对于资源分配、成本估算和作业调度至关重要。我们观察到，f...

#research #paper #ai #machine-learning
2天前 · ai · - · -

[Paper] 德国手语童话的情感分析

我们提出了一个用于德国语手语（DGS）童话的 dataset 和 model，用于进行 sentiment analysis。首先，我们对三个层面的 val…

#research #paper #ai #machine-learning #nlp
2天前 · ai · - · -

[Paper] 神经符号仓库级代码定位

Code localization 是自主软件工程的基石。最近的进展在真实世界问题基准上取得了令人印象深刻的表现。...

#research #paper #ai #machine-learning
3天前 · ai · - · -

[论文] MM-WebAgent：一种用于网页生成的层次化多模态网页代理

人工智能生成内容（AIGC）工具的快速进展，使得可以按需为网页设计创建图像、视频和可视化内容。

#research #paper #ai #machine-learning #nlp #computer-vision
3天前 · ai · - · -

[Paper] LLM 问题求解中的泛化：最短路径案例

语言模型是否能够系统性地概括仍然是一个活跃的争论。然而，经验性能（empirical performance）受包括训练（training）在内的多重因素共同影响……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] 诊断 LLM 判决可靠性：Conformal Prediction Sets 与 Transitivity Violations

LLM-as-judge 框架正日益用于自动 NLG 评估，但它们的单实例可靠性仍然了解不足。我们提出一种双管齐下的……

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] 表格深度学习中MLP优化器的基准测试

MLP 是现代深度学习（DL）架构中在表格数据监督学习中被广泛使用的主干，AdamW 是用于训练的首选优化器……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] LLMs 和 VLMs 如何在没有视觉的情况下理解视点旋转？可解释性研究

在过去的一年里，空间智能受到了越来越多的关注。许多先前的工作从视觉空间智能的角度研究它，其中……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[论文] 使用截断正交多项式核的 SVM 结构可解释性

我们研究基于截断正交多项式核构建的支持向量机（SVM）的后训练可解释性。由于相关的再现…

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] 为什么视觉语言模型在识别人类情感方面表现困难？

理解情感是智能系统能够与人类互动的基本能力。视觉语言模型（VLM）已经取得了巨大的 p...

#research #paper #ai #machine-learning #computer-vision
3天前 · ai · - · -

[Paper] 嵌入如何塑造图神经网络：经典 vs 量子导向节点表示

节点嵌入充当图神经网络的信息接口，但它们的实证影响常常在不匹配的 backbones、splits 和 … 中报告。

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] Prism：张量程序的符号超优化

本文介绍了 Prism——首个用于张量程序的符号化超优化器。其核心思想是 sGraph，一种符号化的层次化表示，能够紧凑地……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] SegWithU：不确定性作为扰动能量用于单次前向传播风险感知医学图像分割

可靠的不确定性估计对医学图像分割至关重要，因为自动轮廓会用于下游量化和临床决策支持。

#research #paper #ai #machine-learning #computer-vision
3天前 · ai · - · -

[Paper] 克隆与学习对 Stabilizer 状态同样困难

同时克隆非正交态的不可能性是量子理论的基础。即使允许近似误差，克隆……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] CoopEval：在社会困境中对合作维持机制和 LLM 代理进行基准测试

随着 LLM 代理与其他追求目标的代理之间有效且安全互动的重要性日益提升，然而，最近的研究却报告了相反的趋势：LLM …

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

循环 Transformer 的稳定性与泛化

Looped transformers 通过在更难的问题上增加迭代次数来实现测试时计算的可扩展性，但仍不清楚哪些架构选择能够让……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] 使用 log-barrier 的 bandit 反馈矩阵游戏的最优最后迭代收敛

我们研究在零和矩阵博弈中学习 minimax 策略的问题。Fiegel 等人（2025）最近表明，实现 last‑iterate 收敛在此……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] 上下文胜于内容：揭露自动评审中的评估造假

LLM-as-a-judge范式已经成为自动化AI评估流水线的运行核心，但它基于一个未经验证的假设：评审者评估…

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[论文] AI辅助需求工程：相对于专家判断的实证评估

Artificial Intelligence 正日益被引入 systems engineering 活动，特别是在 requirements engineering 中，在那里 quality assessment …

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] 学习像漫画配文作者一样思考：不协调-解决监督用于多模态幽默理解

幽默是为数不多的认知任务之一，在这些任务中，推理正确与答案正确同等重要。虽然最近的研究评估幽默……

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] 美团商家业务诊断：通过策略引导的双过程用户模拟

模拟群体层面的用户行为能够在不进行昂贵的在线实验的情况下，实现对 merchant strategies 的可扩展的 counterfactual 评估。然而，构建一个 tr...

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[论文] Scepsy：使用聚合 LLM 流水线服务代理式工作流

Agentic workflows 通过编排多个大型语言模型（LLMs）和工具来执行复杂任务。在目标吞吐量下提供此类工作流时，...

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] AdaSplash-2：更快的可微稀疏注意力

稀疏注意力已被提出作为缓解 transformer 二次成本的一种方式，这是长上下文训练中的核心瓶颈。一个有前景的方向是……

#research #paper #ai #machine-learning #nlp
3天前 · ai · - · -

[Paper] 结构即计算：发育生成最小神经回路

这项工作模拟了cortical neurogenesis的发育过程，从单个stem cell开始，并受gene regulatory rules（derived from mo...）的控制。

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] NEAT-NC：NEAT 引导的导航单元用于机器人路径规划

为了在空间中导航，大脑利用不同的细胞（如 place cells、grid cells、head direction cells 等）对环境进行内部表征。

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] Atropos：在自一致性下通过提前终止和模型热切换提升基于LLM的代理的成本效益权衡

Open-weight Small Language Models（SLMs）可以在更低的财务成本下提供更快的本地推理，但可能无法达到商业模型相同的性能水平。

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] 合作竞争：战略数据生成与激励框架用于 Coopetitive Cross‑Silo Federated Learning

在数据敏感的领域，如医疗保健，跨筒联邦学习（CFL）允许组织在不共享原始数据的情况下协同训练 AI 模型……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[论文] Vibe-Coding：基于反馈的自动化验证，无需人工代码检查的可行性研究

Vibe coding 本质上假设通过反馈循环对 LLM 生成的代码进行迭代式精炼。虽然在传统软件任务中有效，但其可靠性……

#research #paper #ai #machine-learning
3天前 · ai · - · -

[Paper] OpenClaw 和 Codex 中轨迹安全评估与诊断基准：ATBench-Claw 和 ATBench-CodeX

随着代理系统进入日益多样化的执行环境，轨迹级安全评估和诊断需要能够随之演进的基准。A...

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 在联邦学习中利用相关性：机遇与实际局限

联邦学习（FL）中的通信瓶颈促使了大量研究，旨在降低客户端设备之间交换数据的体积……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] ELMoE-3D：利用 MoE 的内在弹性，实现混合绑定支持的自我推测解码在本地服务中的应用

Mixture-of-Experts（MoE）模型已成为大规模语言模型的主流架构，但本地部署在根本上仍受内存限制……

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] AgileLog：面向数据流代理的可分叉共享日志

在现代数据流系统中，除了传统程序之外，出现了一种能够与流式数据交互的新型实体：AI agents。与传统…

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 从 $P(y|x)$ 到 $P(y)$：探索预训练空间中的强化学习

虽然通过可验证奖励的强化学习（RLVR）通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力，但它的潜力……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] LongCoT：基准测试长时程 Chain-of-Thought 推理

随着语言模型日益被用于复杂的自主任务，它们在更长时间范围内进行准确推理的能力变得至关重要。An essentia...

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] 从感受到度量：理解并形式化用户如何 Vibe-Test LLMs

评估 LLMs 具有挑战性，因为基准分数往往无法捕捉模型在真实世界中的实用性。相反，用户常常依赖 “vibe-testing”：非正式的……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] 修辞性问题在 LLM 表示中的线性探测研究

修辞性问题的提出不是为了获取信息，而是为了说服或表明立场。大型语言模型内部如何表示它们仍不清楚。我们...

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] HiVLA：一种视觉驱动中心的层次化具身操作系统

虽然端到端的 Vision-Language-Action（VLA）模型为机器人操作提供了一个有前景的范式，但在狭窄的控制数据上对其进行微调往往会导致性能妥协……

#research #paper #ai #machine-learning #computer-vision
4天前 · ai · - · -

[Paper] TREX：通过代理驱动的基于树的探索实现 LLM 微调自动化

虽然大型语言模型（LLMs）已经赋能AI研究代理执行孤立的科学任务，但自动化复杂的真实世界工作流，例如LLM……

#research #paper #ai #machine-learning #nlp
4天前 · ai · - · -

[Paper] ID 与 Graph View 对比学习的 Multi-View Attention Fusion 用于 Sequential Recommendation

序列推荐在学术界和工业界，尤其是电子商务领域，变得日益突出。其主要目标是提取用户偏好…

#research #paper #ai #machine-learning
4天前 · ai · - · -

[Paper] UI-Zoomer：基于不确定性的自适应放大用于 GUI Grounding

GUI grounding，指在给定自然语言查询的情况下，从截图中定位界面元素，对于小图标和密集布局仍然具有挑战性。Test-t...

#research #paper #ai #machine-learning #nlp #computer-vision

Newer posts

Older posts