[Paper] Chain-of-Ground:通过迭代推理和参考反馈提升 GUI Grounding
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
3360 posts from this source
GUI grounding 旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大型语言模型表现出强大的……
全球矿物加工能力必须快速扩张,以满足关键矿产的需求,这些矿产对构建清洁能源技术至关重要。
RL 对推理能力的贡献机制——是激励新技能的综合,还是仅仅放大已有行为——仍然...
深度研究代理(DRAs)旨在通过迭代的信息检索与综合,自动生成分析师级报告。然而,大多数现有的 DRA……
可验证奖励的强化学习(RLVR)提升了大型语言模型(LLMs)的推理能力,使得自主代理能够……
大型语言模型(LLMs)的崛起引发了对代理的浓厚兴趣,导致代理框架的快速增长。代理框架是软件……
近期大型语言模型(LLMs)的进展主要得益于其新兴的推理能力,尤其是通过长链式思考(CoT)……
理解大型语言模型(LLMs)的内部思考过程以及幻觉产生的原因仍然是一个关键挑战。为此,我们引入了 l...
物联网的增长使新一代应用成为可能,将计算和智能推向网络边缘。这一趋势,如何...
对 MPI 应用程序进行详细的跟踪分析对于性能工程至关重要,但不断增长的跟踪规模和复杂的通信行为常常导致 c...
本文分析了人工智能 (AI) 与混合整数线性规划 (MILP) 的结合,以在...中应对复杂的优化挑战。
自动化测试生成已成为确保软件质量的关键技术,尤其是在现代基于 API 的架构中。然而,自动生成…
处理缺乏固有时间动态的静态图像仍然是脉冲神经网络(SNN)的一项根本性挑战。在直接训练的SNN中,静态...
符号回归(SR)是一种回归方法,旨在发现描述变量之间关系的数学表达式,且它通常...
图神经网络(GNN)通过将不规则、受内存限制的图遍历与规则、计算密集的稠密矩阵运算相结合,提出了一个根本性的硬件挑战。
Digital Twins (DTs) 正在越来越多地作为复杂社会技术系统中的自主决策者使用。它们的数学上最优的决策常常会出现偏差……
软件在复杂系统开发和原型制作中扮演着日益重要的角色,近年来,MIT Lincoln Laboratory一直致力于改进……
现实世界中的关系数据通常以图的形式组织,这些图提供了进行分析推导所需的逻辑抽象,使其简化……
软件供应链攻击暴露了现有 SCA 工具的盲点,这些工具通常仅限于单一生态系统,并且只评估软件制品……
先进的深度学习架构,尤其是循环神经网络(RNN),已被广泛应用于音频、生物声学和生物医学信号分析。
本文探讨了将基于 MPI 的同步技术集成到分布式模糊测试框架中,强调了可能带来的显著性能提升。
模糊测试是一种极其有效的发现软件漏洞的方法,但分析产生的数据通常需要大量的人工工作。Thi...
在许多学术学科中,软件是在研究过程或为研究目的而创建的。软件在研究中的关键作用正日益增强。
联邦学习是一种因其安全性和计算优势而受到欢迎的分布式学习方法。随着网络中强大设备的出现……
Covid 使在线教学和学习变得被接受,学生、教师和行业专业人士都对这种模式感到舒适。这种舒适感可以……
我们提出基于Conformer的解码器用于LibriBrain 2025 PNPL竞赛,针对两个基础的MEG任务:Speech Detection 和 Phoneme Classification……
许多现代软件项目发展迅速,以纳入新功能和安全补丁。用户将其依赖项更新到更安全的版本非常重要。
Serverless 大型语言模型(LLMs)已成为通过实现“pay-as-you-go”定价模式来部署 AI 服务的成本有效解决方案……
本文介绍了一种基于归一化 Pascal(二项式)系数的新型多父代重组算子族,用于遗传算法(GAs)。Unl...
在本文中,我们研究了一种 neural network model,其中计算节点之间的 weights 根据局部学习规则(local learning rule)进行修改。为了确定 w…
Machine Consciousness Hypothesis 认为,意识是一种与基底无关的功能属性,存在于能够进行二阶感知的计算系统中……
在异构边缘环境中对大规模 foundation models 进行推理,需要一个根本可重构的 orchestration substrate。Static …
联邦微调为在保护数据隐私的同时,将大型语言模型(LLMs)适配到下游任务提供了有前景的解决方案。然而,它的hi...
Microservices 已经通过创建模块化和独立的服务,改变了 software architecture。然而,它们引入了 operational complexities …
Quality-Diversity (QD) 算法构成了优化的一个分支,旨在发现多样且高质量的解集合,以实现优化……
随着大语言模型(LLMs)通过张量并行(TP)和流水线并行(PP)进行规模扩展,生产堆栈已经积极优化了数据……
对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。
近期的多模态大语言模型(MLLMs)在视频理解方面取得了进展,但大多数仍然是“思考视频”,即一旦视频被编码,推理……
开发稳健的世界模型推理对于大型语言模型(LLM)代理在复杂环境中进行规划和交互至关重要。虽然多轮交互……
最近,多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……
近期在大型语言模型(LLMs)方面的进展已经促成了数学发现的突破,以 AlphaEvolve 为例,这是一个闭源系统,...
大型视觉语言模型(VLMs)通过广泛的预训练,有效弥合模态差距,获取与视觉表示相匹配的复杂特征……
当前的世界模型缺乏统一且受控的系统评估环境,这使得难以评估它们是否真正捕捉到了底层的 ru...
近年来,语言模型在高级基准上取得了巨大的进展,但这些进展在很大程度上只能通过使用更昂贵的模型来实现……
Deep learning 方法在 object detection 方面已经实现了对图像中特定目标类别的可靠检测。然而,扩展模型的检测能力…
Inverse heat problems 指的是在已观测或已知的热扩散行为下,对材料热物理属性进行估计。Inverse heat problems 已经…
本文研究了激活函数在使用两层神经网络学习模加法中的作用。我们首先建立了一个明确的表达能力差距:si...
离线强化学习(Offline reinforcement learning, RL)使得智能体能够从预先收集的数据集学习最优策略。然而,包含次优和碎片化的…