1天前 · ai GAM 直指 “context rot”:一种超越长上下文 LLM 的双代理记忆架构 尽管拥有超人的能力,今天的 AI 模型仍然存在一种令人惊讶的人类缺陷:它们会忘记。给 AI 助手一次庞大的对话,一个多步骤的……
1周前 · ai [Paper] Beluga:一种基于 CXL 的内存架构,用于可扩展且高效的 LLM KVCache 管理 LLM 模型规模的快速增长以及对长上下文推理的日益需求,使得内存成为 GPU 加速服务系统的关键瓶颈……