[Paper] 캐시를 깨뜨리지 마세요: 장기 지평선 에이전시 작업을 위한 Prompt Caching 평가

발행: (2026년 1월 10일 오전 03:41 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.06007v1

Overview

논문 **“Don’t Break the Cache: An Evaluation of Prompt Caching for Long‑Horizon Agentic Tasks”**는 주요 LLM 제공업체가 제공하는 최적화인 프롬프트 캐싱이 LLM이 외부 도구(예: 웹 검색)를 호출해야 하는 자율 에이전트 역할을 수행할 때 어떻게 동작하는지를 조사한다. 대규모 벤치마크에서 실제 비용과 지연 시간을 측정한 결과, 스마트 캐싱을 통해 API 비용을 최대 80 %까지 절감하고 첫 토큰 응답도 가속화할 수 있음을 보여준다.

주요 기여

  • 다중 턴, 툴 호출 LLM 에이전트에 대한 프롬프트‑캐싱 절감 효과를 첫 번째 체계적인 정량화.
  • 다중 제공자 비교 (OpenAI, Anthropic, Google)로 세 가지 별도 캐싱 전략을 다룸:
    1. 전체 컨텍스트 캐싱 (모두 캐시됨).
    2. 시스템 프롬프트 전용 캐싱.
    3. 동적 콘텐츠 제외 캐싱 (정적 프롬프트 + 툴 결과 제외).
  • DeepResearchBench에서 대규모 실증 평가 (≈ 500 에이전트 세션, > 10 k‑토큰 시스템 프롬프트).
  • “캐시 유발 지연 급증”을 방지하기 위한 프롬프트 및 캐시 블록 배치에 대한 실용적인 가이드라인.
  • 제공자별 상세 비용/지연 분석과 벤치마킹 스크립트의 오픈소스 공개.

Methodology

  1. Benchmark selection – DeepResearchBench는 현실적인 연구 질문 답변 작업으로 구성되어 있으며, 여기서 LLM 에이전트는 웹 검색 도구를 반복적으로 호출하고, 결과를 파싱한 뒤 답변을 종합해야 합니다.
  2. Prompt design – 각 세션은 작업 지시, 도구 스키마, 몇 개의 정적 예시를 인코딩한 약 10 k 토큰 규모의 시스템 프롬프트를 사용합니다.
  3. Caching strategies
    • Full‑context: 전체 프롬프트(시스템 + 사용자 + 도구 결과)가 첫 호출 이후에 캐시됩니다.
    • System‑prompt‑only: 정적 시스템 프롬프트만 캐시되고, 동적 사용자 턴과 도구 출력은 매 턴마다 새로 전송됩니다.
    • Dynamic‑exclusion: 정적 프롬프트는 캐시하지만, 도구 결과가 포함된 블록은 의도적으로 캐시에서 제외됩니다.
  4. Metrics – 각 턴마다 저자들은 다음을 기록합니다:
    • API cost (토큰 기반 가격).
    • **Time‑to‑first‑token (TTFT)**를 지연 시간 대리 지표로 사용.
  5. Scale – 세 공급자 모두에서 총 10 000 건 이상의 API 호출을 수행하여 통계적 유의성을 확보했습니다.

결과 및 발견

제공자전략평균 비용 절감평균 TTFT 개선
OpenAIDynamic‑exclusion≈ 78 %+31 %
AnthropicSystem‑prompt‑only≈ 65 %+24 %
GoogleDynamic‑exclusion≈ 45 %+13 %
  • Full‑context caching 가 때때로 TTFT를 증가시켰는데, 캐시가 동적 도구 출력의 큰 블록을 저장해 모델이 매 턴마다 관련 없는 데이터를 다시 처리하도록 강제했기 때문이다.
  • 시스템 프롬프트의 동적 콘텐츠를 끝에 배치(캐시에서 제외될 수 있도록)하면 가장 안정적인 성능을 얻을 수 있었다.
  • 절감 규모는 각 서비스가 캐시 무효화와 토큰 가격 책정 세분화를 구현하는 방식 차이로 인해 제공자마다 달랐다.

Source:

실용적 시사점

  • 비용 효율적인 에이전트 – 수천 개의 자율 LLM 에이전트(예: 연구 보조, 자동화된 헬프 데스크)를 운영하는 프로덕션 시스템은 권장되는 대로 프롬프트를 캐시하고 구조화함으로써 운영 비용을 크게 절감할 수 있습니다.
  • 지연 시간에 민감한 UX – 더 빠른 TTFT(첫 토큰 도착 시간)는 특히 실시간 어시스턴트나 채팅 기반 IDE 플러그인에서 사용자 경험을 더욱 쾌적하게 만듭니다.
  • 프롬프트 엔지니어링 체크리스트:
    1. 정적 시스템 프롬프트를 턴‑별 또는 도구‑생성 텍스트와 분리합니다.
    2. 동적 도구 결과는 캐시된 블록 뒤에 추가하거나, 캐시되지 않는 별도의 “스크래치패드”에 저장합니다.
    3. 제공자‑특정 캐시 제어 플래그(예: OpenAI API의 cache_control)를 사용해 변동 가능한 섹션을 명시적으로 제외합니다.
  • 인프라 간소화 – 캐시가 제공자에 의해 처리되므로 개발자는 맞춤형 메모이제이션 레이어를 구축할 필요가 없으며, 프롬프트를 올바르게 포맷하기만 하면 됩니다.

제한 사항 및 향후 연구

  • 이 연구는 단일 에이전트, 단일 작업 워크로드에 초점을 맞추고 있으며, 다중 에이전트 협업이나 분기 대화는 다른 캐싱 동작을 보일 수 있습니다.
  • 세 개의 상업용 제공업체만 조사했으며, 신흥 오픈소스 LLM 서빙 스택(예: vLLM, Llama‑cpp)은 다르게 동작할 수 있습니다.
  • 벤치마크는 10 k 토큰 시스템 프롬프트를 사용했는데, 이는 일반적인 프로덕션 프롬프트보다 크며, 더 작은 프롬프트에 대한 결과는 상대적인 절감 효과가 감소할 수 있습니다.
  • 향후 연구에서는 관찰된 지연 시간이나 비용 추세에 따라 캐시 블록을 자동으로 전환하는 적응형 캐싱 정책을 탐구하고, 평가 범위를 다른 도구 유형(예: 코드 실행, 데이터베이스 쿼리)으로 확장할 수 있습니다.

저자

  • Elias Lumer
  • Faheem Nizar
  • Akshaya Jangiti
  • Kevin Frank
  • Anmol Gulati
  • Mandar Phadate
  • Vamse Kumar Subbiah

논문 정보

  • arXiv ID: 2601.06007v1
  • 카테고리: cs.CL
  • 출판일: 2026년 1월 9일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...