【论文】Agentar-Fin-OCR
在本文中,我们提出了 Agentar-Fin-OCR,这是一种针对金融领域文档的文档解析系统,能够将超长的金融 PDF 转换为语义……
4654 posts from this source
在本文中,我们提出了 Agentar-Fin-OCR,这是一种针对金融领域文档的文档解析系统,能够将超长的金融 PDF 转换为语义……
生成与视频事件在时间上对齐的音乐对于现有的 text-to-music 模型来说是具有挑战性的,因为它们缺乏细粒度的 temporal control。我们介绍…
LLM-as-a-judge范式依赖于一个关键假设,即高评估者之间的一致性表明评估是可靠且客观的。我们预…
基于大型语言模型(LLMs)的伪相关反馈(PRF)方法可以沿两个关键设计维度进行组织:反馈来源,即…
人类提升研究——或衡量 AI 对人类绩效相对于现状影响的研究,通常使用随机对照试验(RCT)方法。
近期在文本到图像(T2I)生成方面的进展显著提升了视觉质量,但要生成在视觉上与真实世界照片相媲美的图像仍然具有挑战性。
我们展示了,transformer 语言模型中的 MLP 层对连续信号执行二进制路由:决定一个 token 是否需要非线性处理……
量子计算机已经展示了在模拟量子系统方面的实用性,超越了暴力的经典方法。随着社区在这些演示的基础上继续构建……
量子计算机已展示出在模拟量子系统方面的实用性,超越了 brute-force 经典方法。随着社区在这些演示的基础上继续发展……
随着其能力的不断提升,大型语言模型(LLMs)现在已被广泛应用于许多行业。它们已成为软件工程师以及…
Simulation-based testing 已成为在 real-world deployment 之前验证 autonomous driving agents 的标准方法。高质量的 validation campaign …
基于 LLM 的文本嵌入器通常对其输入进行语义内容的编码。然而,嵌入任务需要将多样化的输入映射到相似的输出。Typic...
GLM-OCR 是一个高效的 0.9B 参数紧凑多模态模型,旨在用于真实世界的文档理解。它结合了 0.4B 参数的 CogViT 视觉编码器……
知识蒸馏(KD)方法在将大型预训练语言模型压缩为更小模型方面至关重要,确保计算效率而不……
SiDiaC‑v.2.0 是迄今为止规模最大的综合 Sinhala Diachronic Corpus,覆盖了出版日期从公元1800年到公元1955年的时期,并且一个历史……
在 serverless 平台中的信息流是复杂且非保守的。这直接源于独立部署的函数在 t... 下的交互方式。
QuantumX 轨道的第一届在第29届软件工程与数据库研讨会 (JISBD 2025) 中举办,汇聚了领先的西班牙…
Artificial intelligence 已通过开发 intelligent game‑playing systems 获得了显著进展,这些系统为 decision‑making 提供了严格的 testbeds,……
随着大规模语言模型(LLMs)的规模不断增大以及上下文长度的扩展,注意力计算已成为关键的性能瓶颈……
准确地上采陆地碳通量是估算全球碳预算的核心,但由于观测稀疏且地区偏差……
机制可解释性的核心思想是,神经网络所表示的特征数量超过其维度,通过 superposition 将它们排列在一起,以…
在线新视角合成仍然具有挑战性,需要从顺序的、通常未标定的观测中进行稳健的场景重建。我们提出了 ReCoSplat,一个 au...
随着社交虚拟现实(VR)日益流行,为盲人和低视力(BLV)用户提供可访问性变得越来越关键。研究人员已经…
在生物和人类群体中,集体决策常常源于简单的交互规则,这些规则将微小的差异放大为共识。蜜蜂的…
虽然现有对大型语言模型(LLMs)的评估衡量了欺骗率,但导致欺骗行为的根本条件却很少被理解。
Multiple Instance Learning (MIL) 已被广泛应用于组织病理学,以对 Whole Slide Images (WSIs) 进行切片级诊断的分类。虽然 ground tr...
在现代深度学习中,一个核心问题是如何设计在网络宽度 w 增大时行为仍保持稳定的优化器。我们针对这一问题进行探讨……
在 Python 执行轨迹上训练大型语言模型(LLMs),使它们扎根于代码执行,并实现对整个 Python 程序的逐行执行预测。
深度强化学习系统对学习率(LR)极其敏感,选择稳定且高性能的训练运行通常需要大量的h...
排名决策系统——recommenders、ad auctions、clinical triage queues——必须决定何时在排名输出中进行干预,何时保持沉默。我们研究…
传统的临床CMR工作流程依赖于顺序的“重建-再分析”范式,迫使出现一个病态的中间步骤,导致可避免的…
Computational pathology 需要视觉模式识别和结构化领域知识的动态整合,包括 taxonomy、grading criteria、以及……
近期的生物信号基础模型(FMs)在各种临床预测任务中展示了有前景的性能,但对长期…的系统评估仍然不足。
模型合并已成为一种变革性的范式,用于将多个神经网络的能力合并为单一统一模型,而无需额外的……
在介入放射学中,Cone‑Beam Computed Tomography (CBCT) 是一种有用的成像方式,可在微创手术期间为从业者提供引导。
文本-动作检索旨在学习自然语言描述与 3D 人体动作骨骼序列之间的语义对齐潜在空间,从而实现……
Chamfer distance 是点云重建、补全和生成的标准训练损失,但直接优化它可能会产生更差的 Chamfer …
指数移动平均(EMA)是 Adam 等广泛使用的优化器的基石。然而,现有的 Adam 风格方法的理论分析已经 …
虽然在数学、代码生成和多跳事实性问题中,LLM 的推理发挥着自然的作用,但它对简单的单跳事实性问题的影响仍然...
随着这些模型在动态环境中部署,任务和数据不断变化,对大语言模型(LLMs)的持续微调变得日益关键。
传统 Identity and Access Management 所依据的时间假设在 agentic execution regimes 下崩溃。每…的 60 秒撤销窗口。
最近的研究发现,现代语言模型(如 transformer)在下一个词的预测上可以变得如此出色,以至于它们计算的概率……
自 Shannon 的奠基工作以来,rate‑distortion theory 已经定义了有损压缩的基本极限。经典结果是针对 memoryless 的……
可靠的评估对于开发和部署大语言模型至关重要,但在实际操作中,它往往需要大量的人工工作:从业者……
在安全关键的自主系统中,数据新鲜度是一个根本的设计挑战。虽然逻辑执行时间(LET)范式确保了组合性……
大型语言模型(LLMs)已经彻底改变了代码生成,从静态工具演变为动态对话界面,能够促进复杂的、多…
大型语言模型在代码生成基准测试中几乎达到了天花板水平的表现,但这些结果越来越多地反映出记忆而非真正的……
现代边缘应用日益需要多 DNN 推理系统在异构处理器上执行任务,从并行...中获得性能提升。