[Paper] DentalGPT: 激励牙科中的多模态复杂推理
对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要,然而当前的多模态大语言模型(MLLMs)仍面临困难……
4796 posts from this source
对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要,然而当前的多模态大语言模型(MLLMs)仍面临困难……
在视频理解中,关键帧选择面临重大挑战。传统的 top‑K 选择方法会独立对帧进行打分,往往会失败于……
对边缘设备上实时 DNN 应用的需求日益增长,需要更快地推理日益复杂的模型。虽然许多设备包括 sp...
在不断演进的云计算和网络环境中,服务功能链(SFC)在实现复杂服务方面发挥着关键作用。
使用 closeness centrality 识别中心节点是分析大规模复杂网络的关键任务,但其去中心化计算仍然是 cha...
大型语言模型(LLMs)在自然语言理解和推理方面展现出卓越的能力,但却存在幻觉问题:生成的 f...
专注于代码的大型语言模型(CodeLLM)在生成代码片段、文档和测试用例方面展示了卓越的能力。Howe...
从手工设计的启发式方法向数据驱动的进化算法转变面临一个根本性的两难困境:在实现神经可塑性的同时不牺牲 …
将 C 代码自动翻译成 Java 代码是一项臭名昭著的困难任务,充满了源于根本范式转变(过程式 ...)的挑战。
随着大语言模型(LLMs)在代码生成方面的快速发展,它们在硬件设计中的应用正受到越来越多的关注。然而,e...
在本文中,我们介绍了 GraphSecure,这是一款提供安全扫描结果高级分析和可视化的 Web 应用程序。GraphSecure 使用户……
Rollout-training 解耦正逐渐成为强化学习(Reinforcement Learning,RL)后训练的标准架构,其中内存受限的 rollout 和 compute-b…
测试阶段是软件开发的关键环节,但手动创建测试用例可能耗时。因此,对……的需求日益增长。
当前的 AI 代码生成系统在编译、执行和测试阶段由于 CPU 与 GPU 之间的数据传输而遭受显著的延迟瓶颈……
主动安全算术 MPC 现在已可用于实际应用,但性能和可用性仍受限于框架特定的编译栈,……
我们介绍了 StereoSpace,一个基于 diffusion 的 monocular-to-stereo 合成框架,它仅通过 viewpoint conditioning 来建模几何,而无需 …
生成式世界模型正在重塑具身 AI,使代理能够合成看起来逼真的 4D 驾驶环境,但往往在物理上失败……
在语言和视觉领域基础模型的成功激励了对全端到端机器人导航基础模型(NFMs)的研究。NFMs 直接映射单目……
视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)转移到未见过的场景中。然而……
我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……
归一化流(Normalizing Flows,NFs)已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……
在本工作中,我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的,但我们则提出……
现代机器学习的成功依赖于获取高质量的训练数据。在许多实际场景中,例如从公共仓库获取数据……
自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models,但在学习3D方面仍基本未被探索。
Reinforcement learning (RL),此前已被证明在大型语言模型和多模态模型中有效,已成功扩展用于提升二维图像生成……
All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而,现有方法常常 f...
人类水平的接触丰富操作依赖于两种关键模态的不同角色:视觉提供空间丰富但时间上较慢的全局上下文,...
近期,基于大型扩散模型的以主题为驱动的视频生成取得了重要进展,使得能够在用户提供的主题条件下进行个性化内容合成……
推理超越语言;现实世界需要对空间、时间、affordances,以及远超文字所能表达的诸多方面进行推理。现有的 multimo...
先前将相机控制注入扩散模型的方法主要聚焦于 4D 一致性任务的特定子集:新视角合成、文本到视频…
尽管归一化层长期被视为深度学习架构中不可或缺的组成部分,最近引入的 Dynamic Tanh (DyT) 已经……
我们在部分可观测马尔可夫决策过程(POMDP)中的决策代理与单输入过程函数之间建立了精确的对应关系,...
为神经网络构建对抗性攻击似乎是其在各种服务中部署的关键挑战。为了估计对抗…
我们提出了 Any4D,一种可扩展的多视角 Transformer,用于度量尺度的密集前馈 4D 重建。Any4D 直接生成每像素的运动和几何……
在受限的管状环境中进行自主无人机导航仍然是一个重大挑战,因为管道的约束几何形状以及墙壁的接近……
许多最先进的 LLM 被训练成在给出答案之前先思考。推理可以大幅提升语言模型的能力和安全性,但它也会……
我们开发了一个用于从噪声量子实验中学习的框架,重点关注容错设备通过噪声耦合访问未表征系统……
Temporal-difference (TD) 方法通过从自身的未来价值预测进行 bootstrapping,高效地学习 state 和 action values,但这种 self‑bootstrappi…
社交存在是共同观看内容时享受的核心,但现代媒体消费正日益趋向于孤立。我们调查是否多代理…
情感是政治的核心,分析情感在政治传播中的作用有着悠久的传统。随着研究越来越多地利用 audio-visual 材料……
本研究使用计算文本分析方法,分析 J. R. R. Tolkien 的《霍比特人》(1937)中对话的情感基调。对话通过正则表达式提取……
现代 LLM 预训练消耗大量计算资源和训练数据,这使得不同模型的 scaling behavior(或 scaling laws)成为关键的区分因素。
Transport-based methods 已成为从大规模、干净的数据集构建 generative models 的主流范式。然而,在许多科学和工程…
Symbolic regression 是一种强大的工具,可直接从数据中发现控制方程,但其对噪声的敏感性阻碍了其更广泛的应用。Thi...
本文提出了一种强化学习框架,使得在不依赖人类游戏数据的情况下实现可控且多样的玩家行为。现有的...
我们考虑在无穷范数下,对 (mathbb{R}^d) 中的(逐坐标)最大函数进行平滑化的设计。LogSumExp 函数 (f(x)=ln!left(sum_{i=1}^{d} exp(x_i)right)) ……
Go 在关键基础设施中的采用加剧了对系统化漏洞检测的需求,但现有的 symbolic execution 工具在处理 Go 二进制文件时仍面临困难。
LabelFusion 是一种用于文本分类的融合集成模型,它学习将传统的基于 transformer 的分类器(例如 RoBERTa)与一个或多个 Larg...