[Paper] MedGemma vs GPT-4:开源与专有 Zero-shot 医学疾病分类(基于图像)
多模态大型语言模型(LLMs)通过借助广泛的临床知识来解释扫描图像,为医学影像引入了一种新兴范式……
3296 posts from this source
多模态大型语言模型(LLMs)通过借助广泛的临床知识来解释扫描图像,为医学影像引入了一种新兴范式……
有声书解读正受到越来越多的关注,因为它们提供了易于获取且深入的书籍分析,为读者提供实用的洞见……
中国的电子商务直播,尤其是在抖音等平台上,已经成为主要的销售渠道,但主播常常使用 morphs 来规避审查和...
Parameter-efficient fine-tuning 已成为将 large language models 适配到 downstream tasks 的主流范式。Low-rank adaptation 方法,如 LoR…
Graph federated learning 使得在保护原始数据隐私的前提下,能够协同从分布式子图中提取高阶信息。How...
大型语言模型(LLMs)在代码生成方面展现了卓越的能力,但在复杂的多步骤编程中仍会出现系统性错误……
我们提出 LLM‑PeerReview,这是一种无监督的 LLM 集成方法,它从每个查询的多个 LLM 生成的候选答案中选择最理想的响应,…
在特定上下文中的数据超越其孤立解释,获得更深层的意义。在分布式系统中,相互依赖的数据源揭示出隐藏的……
大型视觉语言模型(VLMs)通常受益于中间视觉线索,这些线索可以通过外部工具注入,或在生成过程中作为潜在视觉标记产生。
基于逆向的视觉编辑提供了一种有效且无需训练的方式,根据用户指令编辑图像或视频。现有方法通常……
云事件在生产环境中带来重大运营挑战,未解决的生产云事件平均每小时成本超过 200 万美元。先前的研究……
神经网络剪枝被广泛用于降低模型规模和计算成本。然而,大多数现有方法将稀疏性视为外部强加的约束。
Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式:tr...
多模态回归旨在从异构输入源预测连续目标,通常依赖于早期或后期融合等融合策略……
使用 AI 代理自动化端到端数据科学流水线仍然卡在两个瓶颈上:生成有洞察力、多样化的可视化证据,以及将其组装成连贯的叙事。
评估各种模型架构的性能,例如 transformer、大型语言模型(LLMs)以及其他 NLP 系统,需要全面的 ben...
最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而,这些方法中的大多数面临着…
Scaling law 是 Large Language Model (LLM) 开发的基石,预测随着计算资源的增加,模型性能会提升。Ye...
基于大语言模型的代理最近在需要长期交互的真实软件工程(SWE)任务中展示了强大的潜力……
我们考虑在数据驱动的线性动力学模型中恢复线性守恒律的问题。给定一个学习得到的算子 widehat{A} 和一个满秩约束……
投影梯度下降(Projected Gradient Descent,PGD)是一种强大且广泛使用的一阶对抗攻击,但其计算成本扩展性差,因为所有训练样本 u...
能源消耗决定了部署大型语言模型的成本和环境影响。本文研究了片上 SRAM 大小和 op...
实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…
自然语言处理(NLP)系统正日益被用于医疗保健、金融和政府等敏感领域,在这些领域它们处理大量…
现代学习系统的稳定性分析常常基于平滑性假设,而这些假设被 ReLU 类型的非线性所违反。在本说明中,w...
本卷收录了2025年6月20日在法国里尔举办的可适应云架构研讨会(Workshop on Adaptable Cloud Architectures,WACA 2025)的后续论文集,会议与……同址举行。
GUI 代理的开发可能会彻底改变下一代人机交互。受此愿景的激励,我们提出了 MAI-UI,一个 … 系列。
基于提示的 Video Segmentation Foundation Models(VSFMs),如 SAM2,正日益在自动驾驶和数字病理等应用中部署,……
Binary program analysis 在系统安全中仍然非常重要。二进制代码分析已经取得了许多实际成果,但细粒度分析仍然……
大规模混合专家(Mixture-of-Experts,MoE)模型依赖专家并行来实现高效的训练和推理,这种方式将专家划分到不同设备上,并且需要……
联邦微调(Federated Fine-Tuning,FFT)因其能够利用服务器端和客户端的数据来提升全局模型的泛化能力,同时保持……
Hit identification 是药物发现流程中一个关键且资源密集的步骤,传统上依赖于对大规模化合物的 high-throughput screening …
在持续学习(Continual Learning, CL)中,一个根本性的挑战是灾难性遗忘,即在适应新任务时会导致先前任务的性能下降。虽然……
生成式人工智能的快速发展使得能够创建高度逼真的假面部图像,对个人 ... 构成了严重威胁。
在本研究中,我们引入了一种可变窗口大小(VWS)空间平滑框架,以提升基于共阵列的到达方向(DOA)估计在稀疏…
虽然传统切换(THOs)一直是移动连接的支柱,但它们日益出现故障和延迟,尤其是在密集部署中。
在 VR 中创建物理上逼真的内容通常需要复杂的建模工具或预定义的 3D 模型、纹理和动画,这会带来显著的 b……
无人机(UAV)是灾后搜救的关键工具,面临信息密度高、视角快速变化等挑战……
Breadth-First Search (BFS) 是一种基础的图核,支撑着广泛的应用。虽然现代 GPU 提供了专门的 Matrix-Multiply-Accu…
自注意力机制显著推动了自然语言处理领域的发展,促进了先进语言学习模型的……
Tokenization 是训练任何 Large Language Model (LLM) 的第一步,在此步骤中,文本会根据模型的固定 vocabulary 被拆分成一系列 token。
基于执行的反馈(如单元测试)在通过测试时缩放(TTS)和强化学习(RL)开发编码代理时被广泛使用。T...
Speculative decoding 通过并行验证多个 draft token 加速 autoregressive language model 的推理。然而,verification stage 往往会出现 …
在本文中,我们探讨自动法规预测的问题,即对于给定的案件描述,预测一组相关法规的子集。Her...
大型语言模型在许多 AI 任务中表现出卓越的性能,但即使在训练之后,由于它们对高……的需求,使用成本仍然很高。
大型语言模型(LLMs)已成为智能推理和决策的强大基础,在广泛的……方面展示了显著的影响。
我们引入了保守的主动信息 I^oplus,这是一种对主动信息的对称扩展,用于量化整个搜索过程中的信息净增益/损失。
Agentic AI 和 Multi-Agent Systems 正在准备在近期主导工业和社会。由目标驱动的自主性驱动,它们代表了一种强大的 …