Source

arXiv

4654 posts from this source

排序:

1个月前 · ai · - · -

[Paper] 多模态大语言模型作为图像分类器

多模态大型语言模型（MLLM）的分类性能在很大程度上取决于评估协议和真实标签的质量。比较MLLM的研究……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Omni-Diffusion：统一的多模态理解与生成，采用 Masked Discrete Diffusion

虽然近期的多模态大语言模型（MLLMs）取得了令人印象深刻的进展，但它们主要采用传统的自回归架构作为其……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Fly360：全向障碍规避在无人机视角下

障碍规避作为无人机（UAV）的一项基础能力，随着对空间智能的日益关注，已受到越来越多的关注。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] SCOPE：场景上下文化增量少样本3D分割

增量少样本（IFS）分割旨在通过仅少量标注随时间学习新类别。虽然在 2D 中已被广泛研究，但仍未得到充分利用……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] SUREON：用于外科推理的基准与视觉语言模型

外科医生不仅仅是看——他们在解读。当专家观察手术现场时，他们不仅了解正在使用的器械是什么，还明白为什么选择它……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Penguin-VL：探索基于LLM的视觉编码器在VLM中的效率极限

Vision Language Model (VLM) 的开发在很大程度上依赖于扩大模型规模，这阻碍了在计算受限的移动和边缘设备上的部署……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 层次化工业需求预测与时间及不确定性解释

层次时间序列预测对于各行业的需求预测至关重要。虽然机器学习模型已经取得了显著的...

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] KCLarity 在 SemEval-2026 第6任务：Encoder 与 Zero-Shot 方法用于政治规避检测

本文描述了 KCLarity 团队在 CLARITY 共享任务中的参与，该任务是 SemEval 2026 上关于对政治话语中歧义和规避技术进行分类的任务……

#research #paper #ai #nlp
1个月前 · software · - · -

[论文] 理解与发现 JIT 编译器性能 Bug

即时编译器（JIT）是许多拥有托管运行时的流行编程语言（例如 Java 和 JavaScript）的关键组件。JIT 编译器执行 …

#research #paper #software
1个月前 · ai · - · -

[Paper] LiveSense：一种在 COTS 笔记本上实现实时 Wi‑Fi 感知的距离‑多普勒平台

我们提出了 LiveSense —— 一个跨平台系统，它将笔记本电脑上的商业现货（COTS）Wi‑Fi 网络接口卡（NIC）转变为厘米级……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 多源多模态数据冗余的建模与测量用于自动驾驶

下一代自动驾驶车辆（AVs）依赖大量的多源和多模态（M^2）数据来支持实时决策。实际上，数据...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SurgFormer：可扩展的器官变形学习，支持切除并实现实时推理

我们介绍了SurgFormer，一种用于体积网格上数据驱动软组织仿真的多分辨率门控Transformer。高保真生物力学求解器…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] RAMoEA-QA：层次化专门化用于稳健的呼吸音频问答

Conversational generative AI 正在快速进入医疗领域，在这里 general‑purpose models 必须整合 heterogeneous patient signals 并支持多样的 inter…

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] NEGATE：受约束的语义引导用于文本到视频扩散中的语言否定

否定是一个基本的语言运算符，但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中，我们提出了一个形式化的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 当一种模态统治一切：多模态扩散模型中的Backdoor模态崩溃

虽然 diffusion models 已经彻底改变了视觉内容生成，但它们的快速普及凸显了迫切需要研究其漏洞，例如……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 语义感知缓存用于概念学习

Concept learning 是一种在描述逻辑的知识库上进行的监督式机器学习。最先进的 concept learners 通常依赖于…

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[论文] 在上下文中说话：通过对比学习实现语音上下文对齐的多语言ASR

自动语音识别（ASR）受益于预训练语音和语言模型的进展，但大多数系统仍然局限于单语环境……

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] NOBLE：使用非线性低秩分支加速 Transformer

我们引入 NOBLE（Nonlinear lOw-rank Branch for Linear Enhancement），一种在 transformer 的线性层中添加非线性低秩分支的架构增强。

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] PONTE：用于自然语言可信解释的个性化编排

可解释人工智能（XAI）旨在提升机器学习系统的透明度和问责性，但大多数方法遵循一刀切的……

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 大语言模型中的义务条件推理评估：以Wason's Selection Task为例

随着大语言模型（LLMs）在语言能力方面的提升，它们的推理能力正受到越来越多的关注。在人类中，推理往往表现为……

#research #paper #ai #nlp
1个月前 · ai · - · -

[论文] MoEless：通过无服务器计算实现高效的 MoE LLM 服务

大型语言模型（LLMs）已成为人工智能的基石，推动了内容创作、搜索和推荐系统等多个领域的进步……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 面向数学的透明 AI：Transformer‑Based Large Language Models 用于数学实体关系抽取与 XAI

数学文本理解是一项具有挑战性的任务，因为其中存在专门实体以及它们之间的复杂关系。本研究提出……

#research #paper #ai #nlp
1个月前 · software · - · -

[Paper] 使用大语言模型进行 Story Point 估算

本研究调查了使用大型语言模型（LLMs）进行 story point 估计的情况。story point 是无单位、针对特定项目的工作量估计，……

#research #paper #software
1个月前 · ai · - · -

[论文] 透视玻璃盒

这篇论文讨论了模糊认知图（Fuzzy Cognitive Map，FHM）的神经实现以及相应的评估。首先，设计了一个 neural net 来实现……

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] Provuse：平台侧函数融合以提升FaaS环境中的性能与效率

Function-as-a-Service (FaaS) 平台提供可扩展且成本高效的执行，但在复杂应用中会出现更高的延迟和资源开销……

#research #paper #devops
1个月前 · ai · - · -

[Paper] Predictive Coding Graphs 是 Feedforward Neural Networks 的超集

Predictive coding graphs (PCGs) 是最近提出的对预测编码网络的推广，预测编码网络是一种受神经科学启发的概率潜变量模型……

#research #paper #ai #machine-learning
1个月前 · software · - · -

[Paper] 面向 C 扩展 Python 项目的实际故障检测与自动化单元测试生成

许多流行的 Python 库使用 C‑extensions 来处理性能关键的操作，使用户能够结合两者的优势：简洁性和……

#research #paper #software
1个月前 · software · - · -

[论文] Pre-AI 基准：开发者 IDE 满意度与工具自主性（2022）

为了量化 AI 对软件开发的影响，社区需要一个稳健的 AI 前基准。本研究分析了来自 1,155 条有效满意度数据。

#research #paper #software
1个月前 · software · - · -

[Paper] 检测文本规范与领域模型之间的语义对齐

背景：从文本规范中派生的领域模型已被证明在软件工程的早期阶段非常有用。然而，创建 co...

#research #paper #software
1个月前 · ai · - · -

[Paper] 领域自适应模型合并跨不相连的模式

跨领域学习在数据因隐私或异质性而无法集中时具有挑战性，这限制了训练单一全面模型的能力……

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] 面向移动代理 AI 的基于知识的推理：概念、方法与方向

移动代理式 AI 正在将自主能力扩展到资源受限的平台，例如边缘机器人和无人机（UAV），在这些平台上，严格的…

#research #paper #devops
1个月前 · ai · - · -

[Paper] StreamWise：在大规模实时环境中提供多模态生成

multi-modal generative models 的进展正在推动新应用的出现，从 storytelling 到 automated media synthesis。大多数当前的 workloads 生成简单的 …

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] 对抗性缺陷视图模型下的自主移动机器人聚集

本文研究了在欧几里得平面上，N ≥ 2 的 autonomous mobile robots 在分布式 Look-Compute-Move 模型下的 gathering problem。

#research #paper #devops
1个月前 · ai · - · -

[Paper] 一阶 Softmax 加权切换梯度方法用于分布式随机极小极大优化及随机约束

本文针对受随机约束的分布式随机极小极大优化问题进行研究。我们提出了一种新颖的一级 Softmax-Weighted …

#federated learning #minimax optimization #stochastic constraints #softmax weighted gradient
1个月前 · ai · - · -

[论文] 基于Transformer的Inpainting用于稀疏多摄像头设置的实时3D流媒体

高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] RoboPocket：使用你的手机即时改进机器人策略

规模化模仿学习在根本上受限于数据收集的效率。虽然handheld interfaces已经成为一种可扩展的解决方案……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] POET-X：通过缩放正交变换实现内存高效的 LLM 训练

高效且稳定地训练大型语言模型（LLMs）仍然是现代机器学习系统的核心挑战。为了解决这一挑战，Reparamete...

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

Spike、Sparse 与 Sink：大规模激活与 Attention Sinks 的解剖

我们研究 Transformer 语言模型中的两种重复出现的现象：大规模激活，其中少量 token 在少数通道中表现出极端离群值……

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 推理剧场：从 Chain-of-Thought 中解耦模型信念

我们提供了在推理模型中表现性链式思考（CoT）的证据，其中模型对其最终答案非常自信，但仍继续gene...

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 朝向可证明无偏的 LLM 评审者通过偏差受限评估

随着 AI 模型从简单的聊天机器人发展到更复杂的工作流，我们正日益接近那条事件视界——在那之后，AI 系统将被用于……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 面向多模态终身理解：数据集与 Agentic 基线

虽然用于视频理解的数据集已经扩展到小时级时长，但它们通常由密集拼接的片段组成，这些片段与自然的、未剪辑的...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SurvHTE-Bench：用于生存分析中异质处理效应估计的基准

从右删失生存数据中估计异质治疗效应（HTEs）在精准医学和个体化治疗等高风险应用中至关重要。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 奇异贝叶斯模型中的热力学响应函数

奇异统计模型——包括混合模型、矩阵分解和神经网络——由于参数不可辨识以及 d...

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 面向使用神经辐射场的LWIR高光谱图像中气体羽流的3D场景理解

高光谱图像（HSI）有许多应用，范围从环境监测到国家安全，可用于材料检测和识别……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] NCTB-QA: 大规模孟加拉语教育问答数据集及基准性能评估

低资源语言的阅读理解系统在处理不可回答的问题时面临重大挑战。这些系统往往会产生不可靠的……

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] RealWonder: 实时物理动作条件视频生成

当前的视频生成模型无法模拟3D动作的物理后果，如力和机器人操作，因为它们缺乏结构理解……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] On-Policy Self-Distillation 用于推理压缩

推理模型会大声思考，但它们说的大部分是噪声。我们介绍 OPSDC（On-Policy Self-Distillation for Reasoning Compression），一种方法……

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[论文] 大规模辐射流体动力学：比较 MPI 与异步多任务运行时 FleCSI

编写高效的分布式代码仍然是一项劳动密集且复杂的工作。为了简化应用程序开发，Flexible Computational Science Infra...

#research #paper #devops

Newer posts

Older posts