[论文] AME:一种高效的异构 Agentic 内存引擎用于智能手机
发布: (2025年11月24日 GMT+8 23:03)
3 min read
原文: arXiv
Source: arXiv
摘要
智能手机上的本地代理越来越需要持续演进的记忆,以支持个性化、情境感知和长期行为。为满足隐私和响应速度的双重需求,用户数据被嵌入为向量并存储在向量数据库中,以实现快速相似度搜索。然而,大多数现有向量数据库面向服务器级环境。当直接移植到智能手机时,会出现两个鸿沟:
- (G1)硬件不匹配——移动 SoC 的约束与向量数据库的假设不同,包括严格的带宽预算、有限的片上内存以及更严格的数据类型和布局约束。
- (G2)工作负载不匹配——本地使用类似于持续学习的记忆,查询必须与频繁的插入、删除以及持续的索引维护共存。
为了解决这些挑战,我们提出 AME,一种与现代智能手机 SoC 共同设计的本地代理记忆引擎。AME 引入了两项关键技术:
- 硬件感知的高效矩阵流水线,最大化计算单元利用率,并利用多层片上存储以保持高吞吐量。
- 硬件与工作负载感知的调度方案,协调查询、插入和索引重建,以最小化延迟。
我们在 Snapdragon 8 系列 SoC 上实现了 AME,并在 HotpotQA 上进行评估。实验表明,AME 在相同召回率下将查询吞吐量提升至 1.4×,索引构建速度提升至 7×,并在并发查询工作负载下实现最高 6× 的插入吞吐量提升。
主题
- 分布式、并行与集群计算 (cs.DC)
引用
- arXiv: 2511.19192 (cs.DC)
- DOI: https://doi.org/10.48550/arXiv.2511.19192 (待注册)
提交历史
- v1 – Qingyu Ma, Mon, 24 Nov 2025 15:03:06 UTC (621 KB)