Source

arXiv

4654 posts from this source

排序:

1个月前 · ai · - · -

【论文】Agentar-Fin-OCR

在本文中，我们提出了 Agentar-Fin-OCR，这是一种针对金融领域文档的文档解析系统，能够将超长的金融 PDF 转换为语义……

#ocr #document-parsing #financial-documents #computer-vision #curriculum-learning
1个月前 · ai · - · -

[Paper] V2M-Zero：零配对时间对齐视频到音乐生成

生成与视频事件在时间上对齐的音乐对于现有的 text-to-music 模型来说是具有挑战性的，因为它们缺乏细粒度的 temporal control。我们介绍…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 超越共识幻觉：从表面启发式到基于知识的评估在 LLM-as-a-Judge 中

LLM-as-a-judge范式依赖于一个关键假设，即高评估者之间的一致性表明评估是可靠且客观的。我们预…

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] 关于使用 LLM 的伪相关反馈的系统性研究

基于大型语言模型（LLMs）的伪相关反馈（PRF）方法可以沿两个关键设计维度进行组织：反馈来源，即…

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] RCTs 与 Human Uplift Studies：前沿AI评估的方法论挑战与实用解决方案

人类提升研究——或衡量 AI 对人类绩效相对于现状影响的研究，通常使用随机对照试验（RCT）方法。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 色彩过于鲜艳而不真实？生成式颜色保真度的基准测试与校准

近期在文本到图像（T2I）生成方面的进展显著提升了视觉质量，但要生成在视觉上与真实世界照片相媲美的图像仍然具有挑战性。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MLP 的离散魅力：Transformer 前馈层中连续信号的二进制路由

我们展示了，transformer 语言模型中的 MLP 层对连续信号执行二进制路由：决定一个 token 是否需要非线性处理……

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] 量子中心超级计算机参考架构

量子计算机已经展示了在模拟量子系统方面的实用性，超越了暴力的经典方法。随着社区在这些演示的基础上继续构建……

#research #paper #devops
1个月前 · devops · - · -

[Paper] 量子中心超级计算机的参考架构

量子计算机已展示出在模拟量子系统方面的实用性，超越了 brute-force 经典方法。随着社区在这些演示的基础上继续发展……

#research #paper #devops
1个月前 · ai · - · -

[论文] TOSSS：基于CVE的软件安全基准用于大型语言模型

随着其能力的不断提升，大型语言模型（LLMs）现在已被广泛应用于许多行业。它们已成为软件工程师以及…

#research #paper #ai #machine-learning #nlp
1个月前 · software · - · -

[Paper] STADA：基于规范的自动驾驶代理测试

Simulation-based testing 已成为在 real-world deployment 之前验证 autonomous driving agents 的标准方法。高质量的 validation campaign …

#research #paper #software
1个月前 · ai · - · -

[Paper] LLM2Vec-Gen：来自大语言模型的生成式嵌入

基于 LLM 的文本嵌入器通常对其输入进行语义内容的编码。然而，嵌入任务需要将多样化的输入映射到相似的输出。Typic...

#research #paper #ai #nlp
1个月前 · ai · - · -

[论文] GLM-OCR 技术报告

GLM-OCR 是一个高效的 0.9B 参数紧凑多模态模型，旨在用于真实世界的文档理解。它结合了 0.4B 参数的 CogViT 视觉编码器……

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] 从图像到文字：Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

知识蒸馏（KD）方法在将大型预训练语言模型压缩为更小模型方面至关重要，确保计算效率而不……

#research #paper #ai #nlp
1个月前 · ai · - · -

[论文] SiDiaC‑v.2.0: 僧伽罗语历时语料库版本 2.0

SiDiaC‑v.2.0 是迄今为止规模最大的综合 Sinhala Diachronic Corpus，覆盖了出版日期从公元1800年到公元1955年的时期，并且一个历史……

#research #paper #ai #nlp
1个月前 · devops · - · -

[Paper] 拓扑分析用于识别 Serverless 平台中的异常

在 serverless 平台中的信息流是复杂且非保守的。这直接源于独立部署的函数在 t... 下的交互方式。

#research #paper #devops
1个月前 · software · - · -

[Paper] QuantumX：在量子计算与量子软件工程新兴学科整合中的一次实践

QuantumX 轨道的第一届在第29届软件工程与数据库研讨会 (JISBD 2025) 中举办，汇聚了领先的西班牙…

#research #paper #software
1个月前 · ai · - · -

[Paper] 资源受限的 Amazons 棋决策框架：整合大语言模型和图注意力

Artificial intelligence 已通过开发 intelligent game‑playing systems 获得了显著进展，这些系统为 decision‑making 提供了严格的 testbeds，……

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] S-HPLB：通过稀疏感知的头部并行负载均衡实现高效的LLM注意力服务

随着大规模语言模型（LLMs）的规模不断增大以及上下文长度的扩展，注意力计算已成为关键的性能瓶颈……

#research #paper #devops
1个月前 · ai · - · -

[Paper] 基于表征学习的任务感知调制用于陆地碳通量的上尺度

准确地上采陆地碳通量是估算全球碳预算的核心，但由于观测稀疏且地区偏差……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 从数据统计到特征几何：相关性如何塑造 Superposition

机制可解释性的核心思想是，神经网络所表示的特征数量超过其维度，通过 superposition 将它们排列在一起，以…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] ReCoSplat：使用渲染对比的自回归前馈高斯点绘

在线新视角合成仍然具有挑战性，需要从顺序的、通常未标定的观测中进行稳健的场景重建。我们提出了 ReCoSplat，一个 au...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 理解基于 Large Language Model 驱动的指南在让 Virtual Reality 对盲人和低视力人士可及方面的使用

随着社交虚拟现实（VR）日益流行，为盲人和低视力（BLV）用户提供可访问性变得越来越关键。研究人员已经…

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 群体决策动力学中的情感调制

在生物和人类群体中，集体决策常常源于简单的交互规则，这些规则将微小的差异放大为共识。蜜蜂的…

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 说谎前先思考：推理如何提升诚实

虽然现有对大型语言模型（LLMs）的评估衡量了欺骗率，但导致欺骗行为的根本条件却很少被理解。

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

利用全切片难度的多实例学习提升前列腺癌分级

Multiple Instance Learning (MIL) 已被广泛应用于组织病理学，以对 Whole Slide Images (WSIs) 进行切片级诊断的分类。虽然 ground tr...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 关于矩阵算子范数下神经优化器的宽度缩放 I：行/列归一化与超参数迁移

在现代深度学习中，一个核心问题是如何设计在网络宽度 w 增大时行为仍保持稳定的优化器。我们针对这一问题进行探讨……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 面向 Python 的 Neural Debugger

在 Python 执行轨迹上训练大型语言模型（LLMs），使它们扎根于代码执行，并实现对整个 Python 程序的逐行执行预测。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 当学习率出错时：PPO Actor-Critic 中的早期结构信号

深度强化学习系统对学习率（LR）极其敏感，选择稳定且高性能的训练运行通常需要大量的h...

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] Confidence Gate Theorem：排名决策系统何时应当弃权？

排名决策系统——recommenders、ad auctions、clinical triage queues——必须决定何时在排名输出中进行干预，何时保持沉默。我们研究…

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 无图像，无问题：端到端多任务心脏分析基于欠采样k空间

传统的临床CMR工作流程依赖于顺序的“重建-再分析”范式，迫使出现一个病态的中间步骤，导致可避免的…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] PathMem：面向认知对齐的记忆转换用于病理 MLLMs

Computational pathology 需要视觉模式识别和结构化领域知识的动态整合，包括 taxonomy、grading criteria、以及……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] SignalMC-MED：用于在单导联 ECG 和 PPG 上评估生物信号基础模型的多模态基准

近期的生物信号基础模型（FMs）在各种临床预测任务中展示了有前景的性能，但对长期…的系统评估仍然不足。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 大语言模型时代的模型合并：方法、应用与未来方向

模型合并已成为一种变革性的范式，用于将多个神经网络的能力合并为单一统一模型，而无需额外的……

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] 使用 Target-Only Margin Disparity Discrepancy 的无监督领域适应

在介入放射学中，Cone‑Beam Computed Tomography (CBCT) 是一种有用的成像方式，可在微创手术期间为从业者提供引导。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 细粒度动作检索：基于关节角度运动图像和 Token‑Patch 后期交互

文本-动作检索旨在学习自然语言描述与 3D 人体动作骨骼序列之间的语义对齐潜在空间，从而实现……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 关于 Chamfer Distance 在 3D 形状优化中的结构失效

Chamfer distance 是点云重建、补全和生成的标准训练损失，但直接优化它可能会产生更差的 Chamfer …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] OptEMA：自适应指数移动平均用于零噪声最优性的随机优化

指数移动平均（EMA）是 Adam 等广泛使用的优化器的基石。然而，现有的 Adam 风格方法的理论分析已经 …

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 思考以召回：推理如何解锁 LLM 中的参数化知识

虽然在数学、代码生成和多跳事实性问题中，LLM 的推理发挥着自然的作用，但它对简单的单跳事实性问题的影响仍然...

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] MSSR：记忆感知自适应回放用于持续 LLM 微调

随着这些模型在动态环境中部署，任务和数据不断变化，对大语言模型（LLMs）的持续微调变得日益关键。

#research #paper #ai #machine-learning #nlp
1个月前 · devops · - · -

[Paper] 速度的官僚主义：内存一致性模型与多代理授权撤销之间的结构等价

传统 Identity and Access Management 所依据的时间假设在 agentic execution regimes 下崩溃。每…的 60 秒撤销窗口。

#research #paper #devops
1个月前 · ai · - · -

[Paper] N-gram 类语言模型预测阅读时间最佳

最近的研究发现，现代语言模型（如 transformer）在下一个词的预测上可以变得如此出色，以至于它们计算的概率……

#research #paper #ai #nlp
1个月前 · devops · - · -

[Paper] 异构随机场在有限格子上的 Rate-Distortion 界限

自 Shannon 的奠基工作以来，rate‑distortion theory 已经定义了有损压缩的基本极限。经典结果是针对 memoryless 的……

#research #paper #devops
1个月前 · ai · - · -

[Paper] One-Eval：一个用于自动化且可追溯的 LLM 评估的代理系统

可靠的评估对于开发和部署大语言模型至关重要，但在实际操作中，它往往需要大量的人工工作：从业者……

#research #paper #ai #nlp
1个月前 · devops · - · -

[Paper] 确保多速率任务链调度中的数据新鲜度

在安全关键的自主系统中，数据新鲜度是一个根本的设计挑战。虽然逻辑执行时间（LET）范式确保了组合性……

#research #paper #devops
1个月前 · ai · - · -

[Paper] 多轮人类-LLM协同代码生成中的交互异味实证研究

大型语言模型（LLMs）已经彻底改变了代码生成，从静态工具演变为动态对话界面，能够促进复杂的、多…

#large language models #code generation #interaction smells #empirical study #AI-assisted programming
1个月前 · ai · - · -

[Paper] EsoLang-Bench：通过小众编程语言评估大型语言模型的真实推理

大型语言模型在代码生成基准测试中几乎达到了天花板水平的表现，但这些结果越来越多地反映出记忆而非真正的……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 边缘 SoC 上稀疏模型的多 DNN 推理

现代边缘应用日益需要多 DNN 推理系统在异构处理器上执行任务，从并行...中获得性能提升。

#research #paper #ai #machine-learning

Newer posts

Older posts