[Paper] 多模态大语言模型作为图像分类器
多模态大型语言模型(MLLM)的分类性能在很大程度上取决于评估协议和真实标签的质量。比较MLLM的研究……
4654 posts from this source
多模态大型语言模型(MLLM)的分类性能在很大程度上取决于评估协议和真实标签的质量。比较MLLM的研究……
虽然近期的多模态大语言模型(MLLMs)取得了令人印象深刻的进展,但它们主要采用传统的自回归架构作为其……
障碍规避作为无人机(UAV)的一项基础能力,随着对空间智能的日益关注,已受到越来越多的关注。
增量少样本(IFS)分割旨在通过仅少量标注随时间学习新类别。虽然在 2D 中已被广泛研究,但仍未得到充分利用……
外科医生不仅仅是看——他们在解读。当专家观察手术现场时,他们不仅了解正在使用的器械是什么,还明白为什么选择它……
Vision Language Model (VLM) 的开发在很大程度上依赖于扩大模型规模,这阻碍了在计算受限的移动和边缘设备上的部署……
层次时间序列预测对于各行业的需求预测至关重要。虽然机器学习模型已经取得了显著的...
本文描述了 KCLarity 团队在 CLARITY 共享任务中的参与,该任务是 SemEval 2026 上关于对政治话语中歧义和规避技术进行分类的任务……
即时编译器(JIT)是许多拥有托管运行时的流行编程语言(例如 Java 和 JavaScript)的关键组件。JIT 编译器执行 …
我们提出了 LiveSense —— 一个跨平台系统,它将笔记本电脑上的商业现货(COTS)Wi‑Fi 网络接口卡(NIC)转变为厘米级……
下一代自动驾驶车辆(AVs)依赖大量的多源和多模态(M^2)数据来支持实时决策。实际上,数据...
我们介绍了SurgFormer,一种用于体积网格上数据驱动软组织仿真的多分辨率门控Transformer。高保真生物力学求解器…
Conversational generative AI 正在快速进入医疗领域,在这里 general‑purpose models 必须整合 heterogeneous patient signals 并支持多样的 inter…
否定是一个基本的语言运算符,但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中,我们提出了一个形式化的……
虽然 diffusion models 已经彻底改变了视觉内容生成,但它们的快速普及凸显了迫切需要研究其漏洞,例如……
Concept learning 是一种在描述逻辑的知识库上进行的监督式机器学习。最先进的 concept learners 通常依赖于…
自动语音识别(ASR)受益于预训练语音和语言模型的进展,但大多数系统仍然局限于单语环境……
我们引入 NOBLE(Nonlinear lOw-rank Branch for Linear Enhancement),一种在 transformer 的线性层中添加非线性低秩分支的架构增强。
可解释人工智能(XAI)旨在提升机器学习系统的透明度和问责性,但大多数方法遵循一刀切的……
随着大语言模型(LLMs)在语言能力方面的提升,它们的推理能力正受到越来越多的关注。在人类中,推理往往表现为……
大型语言模型(LLMs)已成为人工智能的基石,推动了内容创作、搜索和推荐系统等多个领域的进步……
数学文本理解是一项具有挑战性的任务,因为其中存在专门实体以及它们之间的复杂关系。本研究提出……
本研究调查了使用大型语言模型(LLMs)进行 story point 估计的情况。story point 是无单位、针对特定项目的工作量估计,……
这篇论文讨论了模糊认知图(Fuzzy Cognitive Map,FHM)的神经实现以及相应的评估。首先,设计了一个 neural net 来实现……
Function-as-a-Service (FaaS) 平台提供可扩展且成本高效的执行,但在复杂应用中会出现更高的延迟和资源开销……
Predictive coding graphs (PCGs) 是最近提出的对预测编码网络的推广,预测编码网络是一种受神经科学启发的概率潜变量模型……
许多流行的 Python 库使用 C‑extensions 来处理性能关键的操作,使用户能够结合两者的优势:简洁性和……
为了量化 AI 对软件开发的影响,社区需要一个稳健的 AI 前基准。本研究分析了来自 1,155 条有效满意度数据。
背景:从文本规范中派生的领域模型已被证明在软件工程的早期阶段非常有用。然而,创建 co...
跨领域学习在数据因隐私或异质性而无法集中时具有挑战性,这限制了训练单一全面模型的能力……
移动代理式 AI 正在将自主能力扩展到资源受限的平台,例如边缘机器人和无人机(UAV),在这些平台上,严格的…
multi-modal generative models 的进展正在推动新应用的出现,从 storytelling 到 automated media synthesis。大多数当前的 workloads 生成简单的 …
本文研究了在欧几里得平面上,N ≥ 2 的 autonomous mobile robots 在分布式 Look-Compute-Move 模型下的 gathering problem。
本文针对受随机约束的分布式随机极小极大优化问题进行研究。我们提出了一种新颖的一级 Softmax-Weighted …
高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…
规模化模仿学习在根本上受限于数据收集的效率。虽然handheld interfaces已经成为一种可扩展的解决方案……
高效且稳定地训练大型语言模型(LLMs)仍然是现代机器学习系统的核心挑战。为了解决这一挑战,Reparamete...
我们研究 Transformer 语言模型中的两种重复出现的现象:大规模激活,其中少量 token 在少数通道中表现出极端离群值……
我们提供了在推理模型中表现性链式思考(CoT)的证据,其中模型对其最终答案非常自信,但仍继续gene...
随着 AI 模型从简单的聊天机器人发展到更复杂的工作流,我们正日益接近那条事件视界——在那之后,AI 系统将被用于……
虽然用于视频理解的数据集已经扩展到小时级时长,但它们通常由密集拼接的片段组成,这些片段与自然的、未剪辑的...
从右删失生存数据中估计异质治疗效应(HTEs)在精准医学和个体化治疗等高风险应用中至关重要。
奇异统计模型——包括混合模型、矩阵分解和神经网络——由于参数不可辨识以及 d...
高光谱图像(HSI)有许多应用,范围从环境监测到国家安全,可用于材料检测和识别……
低资源语言的阅读理解系统在处理不可回答的问题时面临重大挑战。这些系统往往会产生不可靠的……
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏结构理解……
推理模型会大声思考,但它们说的大部分是噪声。我们介绍 OPSDC(On-Policy Self-Distillation for Reasoning Compression),一种方法……
编写高效的分布式代码仍然是一项劳动密集且复杂的工作。为了简化应用程序开发,Flexible Computational Science Infra...