[Paper] 超越标签的思考:Vocabulary-Free 细粒度识别,基于 Reasoning-Augmented LMMs
Vocabulary-free fine-grained image recognition 旨在在没有固定的人为定义标签集的情况下,区分元类内部视觉上相似的类别。Exi...
3322 posts from this source
Vocabulary-free fine-grained image recognition 旨在在没有固定的人为定义标签集的情况下,区分元类内部视觉上相似的类别。Exi...
高性能计算(HPC)工作负载正变得日益多样化,作业特征呈现出很大的变动性,然而集群调度仍然……
深度神经网络经常利用捷径。这些是与训练数据中的输出标签相关联的虚假线索,但与任务语义无关。
基于高性能计算(HPC)的模拟在天体物理学和宇宙学(A&C)中至关重要,帮助科学家研究和理解复杂的……
对项目(题目或任务)难度的准确估计对教育评估至关重要,但面临冷启动问题。虽然大型语言模型…
手写文本识别和光学字符识别解决方案在处理现代时代的数据时表现出色,但效率在 La... 时会下降。
我们研究了一个 Hopf 代数 Markov 链的动力学性质,其状态空间是带标签叶子的二叉根森林。这个 Markov 动力系统……
Mixture-of-Experts(MoE)已成为大规模语言模型(LLMs)中的主导架构,因为它能够通过稀疏专家激活来扩展模型容量……
记忆增强的脉冲神经网络(SNN)有望实现能效高的类脑计算,但它们在不同感官模态间的泛化仍未得到充分验证……
本文研究了可修复系统的双目标冗余分配问题(RAP),其目标定义为成本最小化和可用性最大化……
现代潜在扩散模型(LDM)通常在低层次的变分自编码器(VAE)潜在空间中运行,这些空间主要针对像素级的重建进行优化。
单目深度估计仍然具有挑战性,因为最近的基础模型,如 Depth Anything V2 (DA-V2),在处理与真实世界图像相差甚远的情况时表现不佳。
近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...
随着深度学习的提升,理解 AI 系统能够识别对象的模型变得越来越困难。因此,对手可能会……
尽管 Large Reasoning Models (LRMs) 的卓越性能,其推理行为常常违背直觉,导致推理能力次优……
理解和生成 multi-person interactions 是一个根本性的挑战,对 robotics 和 social computing 具有广泛的影响。虽然人类自然…
模仿学习(Imitation learning,IL)通过从专家示范中学习,实现自主行为。相较于诸如强化学习(reinforcement learning)等比较的替代方法,它在样本效率上更高。
全球超过十亿用户正在与日益复杂、旨在模仿人类特征的 AI 系统互动。这一转变引发了紧迫的 …
我们提出了 RadarGen,这是一种扩散模型,用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-
神经量子态(NQS)使用神经网络来表示量子多体系统的波函数,但它们的性能取决于基底的选择,y...
当前用于设计自解释模型(SEMs)的方法需要复杂的训练过程和特定的架构,这使得它们不切实际……
磁场在多个尺度上对星系动力学和结构至关重要,包括多相压力平衡、尘埃处理和恒星形成。Dyna...
算子学习是对无限维函数空间之间映射的基于数据的近似,例如偏微分方程的解算子。
Score-based diffusion models 目前是连续生成建模领域的最新技术。这些方法通常通过 overdamped …
大气模型中的 Terrain-following coordinates 常常在解中留下其网格结构的痕迹,尤其在陡峭的地形上,扭曲的 co…
在评估 VLMs 时,一个关键挑战是测试模型在不依赖文本先验的情况下分析视觉内容的能力。最近的基准测试如 BLINK……
现代扩散模型(DMs)已经实现了最先进的图像生成。然而,将数据完全扩散至白噪声的根本设计选择……
植物疾病对全球粮食安全构成重大威胁,需要准确且可解释的疾病检测方法。本研究介绍了一种 i...
通用机器人学习仍受数据限制:在真实世界中,收集大规模、多样且高质量的交互数据成本高昂。虽然……
文本到图像(Text-to-image,T2I)扩散模型能够生成高质量的图像,但往往未能捕捉文本提示中指定的空间关系。这一限制可以……
虽然 Large Language Models (LLMs) 已经发展成为具有独特界面设计和功能的不同平台,但现有的公共数据集仍将模型视为……
现代序列推荐(SR)模型通常利用模态特征来表示物品,这在很大程度上受到近期语言方面进展的推动,a...
测试和验证是硬件和系统设计中的关键活动,但随着系统规模的增加,它们的复杂性显著提升。虽然 Behav…
为量子机器学习设计具有表达能力、可训练性且对硬件噪声鲁棒的参数化量子电路 (PQCs) 是一项核心挑战。
多实例部分标签学习(MIPL)是一种弱监督框架,扩展了多实例学习(MIL)和部分标签学习的原理……
随着大语言模型(LLMs)的进步,深度研究系统可以通过多步骤推理和基于证据的综合生成专家级报告,但评估……
医学实体识别(Medical Entity Recognition,MedER)是从医学语料库中提取有意义实体的关键自然语言处理(NLP)任务。如今,基于 MedER 的研究成果……
对古代文本的理解在考古学以及对中国历史和文明的认识中发挥着重要作用。大型语言模型的快速发展……
在计算情感科学和计算社会科学领域的工作探索了关于人、情感、行为以及健康的广泛研究问题。
用户生成内容(UGC)的特点是频繁使用非标准语言,从拼写错误到诸如俚语、字符重复等表达选择……
软件材料清单(Software Bill of Materials,SBOM)为软件产品的自动化漏洞识别提供了新的机会。虽然行业正在采用SBO……
我们探索贝叶斯推理作为在问答任务中量化神经网络不确定性的一种手段。首先在 Iris 数据集上使用多层感知器……
虽然端到端 (E2E) 自动语音识别 (ASR) 模型在通用转录方面表现出色,但它们在识别稀有或未见过的命名实体(例如…)时仍然困难重重。
流式语音转文本翻译(StreamST)需要在语音输入的同时生成翻译,施加严格的延迟约束并且要求…
计算能力与片上通信带宽之间日益扩大的差距是现代系统级芯片(SoCs)的关键瓶颈,尤其是对于 ...
多模态大型语言模型(MLLMs)通过三阶段管道扩展了 LLMs 的视觉理解能力:multimodal preprocessing、vision encoding 和 LL...
使用大型语言模型(LLMs)自动化代码审查展现出巨大的潜力,但其缺乏可靠性、上下文感知……
我们推出 PathBench-MIL,一个用于组织病理学中多实例学习(MIL)的开源 AutoML 与基准测试框架。该系统实现了端到端的自动化。