[Paper] 可校准的消歧损失用于多实例部分标签学习
多实例部分标签学习(MIPL)是一种弱监督框架,扩展了多实例学习(MIL)和部分标签学习的原理……
3336 posts from this source
多实例部分标签学习(MIPL)是一种弱监督框架,扩展了多实例学习(MIL)和部分标签学习的原理……
随着大语言模型(LLMs)的进步,深度研究系统可以通过多步骤推理和基于证据的综合生成专家级报告,但评估……
医学实体识别(Medical Entity Recognition,MedER)是从医学语料库中提取有意义实体的关键自然语言处理(NLP)任务。如今,基于 MedER 的研究成果……
对古代文本的理解在考古学以及对中国历史和文明的认识中发挥着重要作用。大型语言模型的快速发展……
在计算情感科学和计算社会科学领域的工作探索了关于人、情感、行为以及健康的广泛研究问题。
用户生成内容(UGC)的特点是频繁使用非标准语言,从拼写错误到诸如俚语、字符重复等表达选择……
软件材料清单(Software Bill of Materials,SBOM)为软件产品的自动化漏洞识别提供了新的机会。虽然行业正在采用SBO……
我们探索贝叶斯推理作为在问答任务中量化神经网络不确定性的一种手段。首先在 Iris 数据集上使用多层感知器……
虽然端到端 (E2E) 自动语音识别 (ASR) 模型在通用转录方面表现出色,但它们在识别稀有或未见过的命名实体(例如…)时仍然困难重重。
流式语音转文本翻译(StreamST)需要在语音输入的同时生成翻译,施加严格的延迟约束并且要求…
计算能力与片上通信带宽之间日益扩大的差距是现代系统级芯片(SoCs)的关键瓶颈,尤其是对于 ...
多模态大型语言模型(MLLMs)通过三阶段管道扩展了 LLMs 的视觉理解能力:multimodal preprocessing、vision encoding 和 LL...
使用大型语言模型(LLMs)自动化代码审查展现出巨大的潜力,但其缺乏可靠性、上下文感知……
我们推出 PathBench-MIL,一个用于组织病理学中多实例学习(MIL)的开源 AutoML 与基准测试框架。该系统实现了端到端的自动化。
目标:本项目的目标是开发一个基于云的联邦系统,作为对在 … 生成的数据进行搜索、发现和分析的单一入口。
NFT 生态系统代表一个相互关联、去中心化的环境,涵盖了非同质化代币(NFT)的创建、分发和交易……
Software Defect Prediction (SDP) 模型是主动软件质量保证的核心,但它们的有效性常常受到可用数据质量的限制。
Survey research 是软件工程中的一种基础经验方法,使得能够系统地收集关于专业实践、感知、以及…的数据。
电力系统是将当今社会转变为无碳经济的关键。包括拍卖在内的长期电力市场机制支持……
Web 应用是现代数字生活的基石,但构建可扩展且一致的云应用仍然困难,需要跨越云平台的专业知识。
像 SWE-bench 这样的基准已经标准化了对大型语言模型(LLMs)在仓库级软件工程任务上的评估。然而,这些努力...
我们提出了一个飞机维护调度问题,该问题需要将具备相应资格的人员分配到每架飞机的维护任务上。任务 o...
Large Language Models (LLMs) 正在越来越多地应用于真实场景的代码生成,在这种情况下,仅有功能正确性不足以实现可靠部署,……
我们提出 GraphCue,一个基于拓扑的检索和 agent‑in‑the‑loop 框架,用于自动化 SDN 配置。每个案例都抽象为一个 JSON 图…
时空图神经网络(ST‑GNNs)非常适合处理来自地理分布式传感器的高频数据流,用于智能移动…
将近似最近邻搜索(ANNS)扩展到数十亿向量,需要能够在准确率、延迟和吞吐量之间取得平衡的分布式索引。然而仍然存在……
联邦学习 (Federated Learning, FL) 允许多个客户端在不共享其私有数据的情况下协同训练模型。然而,FL 易受到拜占庭攻击...
扩散大语言模型(dLLMs)已成为自回归模型(ARMs)的有前景的替代方案,利用并行解码克服顺序……
现代区块链日益采用 multi-proposer (MCP) 共识,以消除单领袖瓶颈并提升 censorship resistance。然而,仅靠 MCP …
Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……
我们提出 WorldCanvas,一个用于可提示世界事件的框架,通过结合文本、轨迹和参考图像,实现丰富的、用户导向的模拟。
受生成式预训练在自然语言领域成功的启发,我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...
传统的多模态大语言模型(MLLM)评估方法缺乏可解释性,且往往不足以充分揭示跨…的显著能力差距。
从视觉输入感知和重建 3D 场景几何对于自动驾驶至关重要。然而,目前仍缺乏针对驾驶任务的稠密几何。
虽然 image editing 发展迅速,但 video editing 仍然较少被探索,面临 consistency、control 和 generalization 的挑战。我们研究了设计...
最近的研究表明,多模态大型语言模型(MLLMs)受益于与视觉工具交互的多模态交叉链式思考(CoT)。
Large language models (LLMs) 具备显式推理能力,在数学推理方面表现出色,但仍会出现过程错误,例如计算错误……
立体显示技术的快速增长,包括 VR 头盔和 3D 影院,导致对高质量立体视频内容的需求不断增加。然而,pr...
先前研究调查大型语言模型(LLMs)的内部工作原理时,发现了稀疏子网络,通常称为 circuits,负责执行……
在本工作中,我们提出了一种全景度量深度基础模型,能够在不同场景距离上实现泛化。我们探索了一种 data‑in‑the‑loop 范式……
本文研究了在可验证奖励(RLVR)强化学习框架中探索‑利用的权衡,这一框架用于提升推理的……
在从机器人到语言等各个领域,标准做法是首先在大规模 demonstration dataset 上对 policy 进行 pretrain,然后对该 policy 进行 finetune,……
近期在多模态模型方面的进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的...
先前关于3D 手部轨迹预测的工作受到数据集的限制,这些数据集将运动与语义监督解耦,并且模型在推理方面的关联较弱。
生成时文本水印将统计信号嵌入文本,以实现对 AI 生成内容的可追溯性。我们探索 *post-hoc watermarking*,其中 LLM…
我们研究当 transformer 被训练用于在序列上求解算术时出现的机制,这些序列中的 token 是其含义由…决定的变量。
AI 技术已迅速进入涉及大规模文本语料库的商业和研究应用领域,包括 computational journalism 研究和新闻……
奖励模型(RMs)对于训练大型语言模型(LLMs)至关重要,但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。