[Paper] UI-Zoomer:基于不确定性的自适应放大用于 GUI Grounding
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
4608 posts from this source
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
Large Language Models (LLMs) 现在能够生成高度流畅、类人文本。它们支持许多应用,但也引发了诸如大…的担忧。
最近的研究表明,(stochastic) gradient descent 会自组织到接近不稳定边界的区域,从而塑造了优化过程以及所找到的解。Momentum...
后训练阶段对语言模型的适配通常通过参数更新或基于输入的方法实现,例如 fine-tuning、parameter-efficient adaptation 等。
我们提出 UMI-3D,这是一种多模态扩展的 Universal Manipulation Interface(UMI),用于在具身操作中实现稳健且可扩展的数据收集。虽然 …
On-policy knowledge distillation (OPD) 在其自身的 rollouts 上,在来自 teacher 的 token‑level supervision 下训练 student。并非所有 token 位置的重要性相同……
我们引入 Multistage Conditional Compositional Optimization(MCCO)作为一种在不确定性下进行决策的新范式,它结合了多阶段……
语义多目标跟踪(SMOT)将多目标跟踪扩展为具有语义输出,例如视频摘要、实例级别的字幕和交互标签……
在编程语言中,解析和重写引用是基础工作。受真实的反编译任务的启发,我们将引用重写抽象为 t...
Human-Object Interaction (HOI) 检测是一个长期存在的计算机视觉问题,旨在预测人类与物体之间的交互。当前…
公平性在算法决策中通常在预测空间中定义,其中预测性能——用作决策者(DM)效用的代理……
生成式人工智能的最新进展,尤其是大型语言模型(LLMs),激发了人们对自动化或协助Bu...的日益兴趣。
现代分布式系统会产生大量日志,这些日志可以被分析以支持关键的 AIOps 任务,例如故障诊断,它在…
Diffusion language models 最近作为标准语言模型的主要替代方案出现,原因是它们具备 bidirectional attention 和并行…
缺乏关于用于训练大型语言模型(LLMs)的代码数据集的透明度,使得检测、评估和缓解数据泄漏变得困难。我们 pr...
根据建构主义理论,当示例基于学生自己的代码时,学生对软件安全的学习更为有效。通用示例往往会失败……
自动代码生成仍然是软件工程中的一个持久挑战,因为传统的 multi-agent 框架常常受到 static planning 的限制……
软件工程研究一直专注于自动化维护和演化过程,以降低成本并提高可靠性。foundation 的出现……
软件工程中的情感分析侧重于理解软件制品中表达的情感。先前的研究指出了其局限性。
深度学习(Deep Learning,DL)在克隆检测中正变得越来越普及,其动机是实现该任务的近乎完美的性能。特别是在…
分离式存储系统通过将存储资源与计算资源分离,提高资源利用率并实现存储和计算资源的独立扩展。
在缺乏持续外部输入的情况下,自我维持的神经活动是神经系统动力学的基本特征,然而其出现的条件……
本研究考察了加性噪声和乘性噪声对单个泄漏积分‑发放(LIF)神经元以及训练后的脉冲神经网络的影响……
SAKURAONE 是由樱花互联网研究中心开发和运营的托管高性能计算(HPC)集群。它基于 KOKARYOKU PHY ba...
Brain digital twins 旨在提供对大脑作为动力系统的忠实、个体化的计算表示,从而实现机制性理解和……
计算密集型 AI 任务的增长凸显了降低处理成本、提升性能和能源效率的需求。这就需要……
我们提出了一种新颖的 end-to-end 隐私保护框架,由三个高效的 protocols 实现,适用于不同的部署场景,覆盖了输入和…
旅行窃贼问题(TTP)是一种著名的多组件优化问题,捕捉了两个组件之间的相互依赖:旅行路线跨越……
我们提出了一种新的稀疏矩阵格式 PackSELL,旨在支持多样的数据表示并实现高效的稀疏矩阵-向量乘法(SpMV)。
露天采矿调度是一个复杂的现实世界优化问题,涉及不确定的经济价值和动态变化的资源容量。Evol...
现代 GPU 工作负载,尤其是大语言模型(LLM)推理,受到 kernel launch 开销和粗粒度同步的限制,这限制了 inter‑kernel 并行性。
最近在视频生成方面的进展使得3D场景创建出现了新范式:生成受摄像机控制的视频,以模拟场景漫游,然后提升……
大型语言模型(LLMs)和视觉语言模型(VLMs)越来越多地通过布局和场景图等中间结构生成室内场景。
Snowflake 通过 elastic architecture 革命性地改变了数据仓库,该架构将 compute 与 storage 解耦,提供了可扩展的解决方案,以满足多样化的数据 analytic 需求……
虽然扩散模型在视觉生成领域占据主导地位,但它们在计算上效率低下,对所有扩散过程都采用统一的计算努力。
Direct Preference Optimization(DPO)的有效性取决于能够反映多模态任务中关键质量差异的偏好数据。存在……
城市地区因快速城市化和气候变化而日益容易受到热极端的影响。传统上,热极端的监测……
系统日志的爆炸性增长使得流式压缩变得必不可少,然而现有的日志异常检测(LAD)方法会产生严重的预处理开销……
Energy Conserving Descent (ECD) 算法最近由 De Luca 与 Silverstein(2022)提出,作为一种全局非凸优化方法。不同于梯度……
Computed tomography (CT) enterography 是评估炎症性肠病 (IBD) 的主要成像方式,但最佳的表征选择仍有待确定。
计算机使用代理(Computer Use Agents,CUAs)根本上依赖图形用户界面(graphical user interface,GUI)基础,将语言指令转换为可执行的屏幕操作,但……
自主 AI 研究发展迅速,但长期视野的 ML 研究工程仍然困难:代理必须在任务理解上保持连贯的进展……
AI驱动的教育平台在个性化方面取得了一定进展,但大多数仍受限于静态适应——预定义的测验、统一的进度、……
On-policy distillation (OPD) 已成为大语言模型后训练的核心技术,但其训练动态仍然了解不足。这……
On-policy distillation (OPD) 已经成为大语言模型的一种高效的后训练范式。然而,标准的 OPD 需要实时的教师推理……
Instruction-tuned 大型语言模型产生有帮助、结构化的响应,但当受到微不足道的约束时,这种帮助性有多稳健?我们展示了简…
大型语言模型(LLMs)在驱动各种软件工程(SE)工具方面展现了巨大的潜力。提供自然语言作为一种直观的交互……
大型语言模型(LLMs)正日益被整合到现实世界的决策中,包括公共政策领域。然而,它们的能力去理解…