[论文] AME:一种高效的异构 Agentic 内存引擎用于智能手机

发布: (2025年11月24日 GMT+8 23:03)
3 min read
原文: arXiv

Source: arXiv

摘要

智能手机上的本地代理越来越需要持续演进的记忆,以支持个性化、情境感知和长期行为。为满足隐私和响应速度的双重需求,用户数据被嵌入为向量并存储在向量数据库中,以实现快速相似度搜索。然而,大多数现有向量数据库面向服务器级环境。当直接移植到智能手机时,会出现两个鸿沟:

  1. (G1)硬件不匹配——移动 SoC 的约束与向量数据库的假设不同,包括严格的带宽预算、有限的片上内存以及更严格的数据类型和布局约束。
  2. (G2)工作负载不匹配——本地使用类似于持续学习的记忆,查询必须与频繁的插入、删除以及持续的索引维护共存。

为了解决这些挑战,我们提出 AME,一种与现代智能手机 SoC 共同设计的本地代理记忆引擎。AME 引入了两项关键技术:

  1. 硬件感知的高效矩阵流水线,最大化计算单元利用率,并利用多层片上存储以保持高吞吐量。
  2. 硬件与工作负载感知的调度方案,协调查询、插入和索引重建,以最小化延迟。

我们在 Snapdragon 8 系列 SoC 上实现了 AME,并在 HotpotQA 上进行评估。实验表明,AME 在相同召回率下将查询吞吐量提升至 1.4×,索引构建速度提升至 ,并在并发查询工作负载下实现最高 的插入吞吐量提升。

主题

  • 分布式、并行与集群计算 (cs.DC)

引用

提交历史

  • v1 – Qingyu Ma, Mon, 24 Nov 2025 15:03:06 UTC (621 KB)
Back to Blog

相关文章

阅读更多 »

ChatGPT 正面临红色警报

大约三年多前,OpenAI把整个科技行业搅得一团乱。ChatGPT 推出时,即使被标榜为“low-key research preview”,它……