[Paper] AME: 스마트폰을 위한 효율적인 이종 에이전트 메모리 엔진

발행: (2025년 11월 25일 오전 12:03 GMT+9)
4 min read
원문: arXiv

Source: arXiv

Abstract

스마트폰의 온‑디바이스 에이전트는 개인화되고 상황에 맞으며 장기적인 행동을 지원하기 위해 지속적으로 진화하는 메모리를 점점 더 필요로 합니다. 프라이버시와 응답성 요구를 모두 충족시키기 위해 사용자 데이터는 벡터 형태로 임베딩되어 빠른 유사도 검색을 위한 벡터 데이터베이스에 저장됩니다. 그러나 기존의 대부분 벡터 데이터베이스는 서버‑클래스 환경을 대상으로 설계되었습니다. 이를 스마트폰에 그대로 이식하면 두 가지 격차가 발생합니다:

  1. (G1) 하드웨어 불일치 – 모바일 SoC의 제약은 벡터 데이터베이스가 가정하는 환경과 다르며, 제한된 대역폭, 제한된 온‑칩 메모리, 그리고 더 엄격한 데이터 타입 및 레이아웃 제약이 포함됩니다.
  2. (G2) 워크로드 불일치 – 온‑디바이스 사용은 지속적으로 학습되는 메모리와 유사하며, 쿼리와 동시에 빈번한 삽입, 삭제, 그리고 지속적인 인덱스 유지보수가 필요합니다.

이러한 과제를 해결하기 위해 우리는 최신 스마트폰 SoC와 공동 설계된 온‑디바이스 에이전트 메모리 엔진 AME를 제안합니다. AME는 두 가지 핵심 기술을 도입합니다:

  1. 하드웨어 인식 고효율 매트릭스 파이프라인으로, 연산 유닛 활용도를 극대화하고 다계층 온‑칩 스토리지를 활용해 높은 처리량을 유지합니다.
  2. 하드웨어 및 워크로드 인식 스케줄링 스킴으로, 쿼리, 삽입, 인덱스 재구성을 조정하여 지연 시간을 최소화합니다.

우리는 Snapdragon 8‑시리즈 SoC에 AME를 구현하고 HotpotQA에서 평가했습니다. 실험 결과, AME는 동일한 리콜 수준에서 쿼리 처리량을 최대 1.4배 향상시키고, 인덱스 구축 속도를 최대 7배 빠르게 하며, 동시 쿼리 워크로드 하에서 삽입 처리량을 최대 6배 높였습니다.

Subjects

  • Distributed, Parallel, and Cluster Computing (cs.DC)

Citation

Submission History

  • v1 – Qingyu Ma, Mon, 24 Nov 2025 15:03:06 UTC (621 KB)
Back to Blog

관련 글

더 보기 »