将 AI 驱动的对话规模从 10K 扩展到 100K,同时保持实时一致性

发布: (2026年5月4日 GMT+8 09:17)
9 分钟阅读

Source: Salesforce Engineering

作者:Ashima Kochar 和 Deepak Mali.

Source:

您团队在构建对话存储服务(Conversation Storage Service,CSS)时的使命是什么?它如何支持 Service Cloud 中的 AI 驱动客户互动?

CSS 不仅仅是一个存储系统——它是 对话上下文的唯一可信来源,直接为实时 AI 系统(如情感分析、座席辅助和主管洞察)提供动力。它提供 可扩展、可靠的基础,用于持久化和检索跨数字渠道的交互,并几乎实时可用。

负责 CSS 的团队构建了一个可扩展、可靠的对话数据基础,以在 Service Cloud 中实现 AI 驱动的互动。该平台持久化跨数字渠道的每一次交互,同时确保数据几乎立即可供下游系统使用。

随着有机数据的增长以及 Agentforce 和 CcaaS 的采用,工作负载必须支持高达 50 000 并发对话,峰值吞吐目标为 100 000。这些交互涉及更大的负载、更长的线程,以及对实时访问的更高期望。

这种规模是 统一代理通信平台(Unified Agentic Communication Platform,UACP) 的基础,使跨渠道和座席的对话保持一致、顺序的上下文。CSS 专注于高吞吐量的写入和低延迟的检索,以向 Data 360、Core 和 AI 流水线提供准确的数据,确保人工和 AI 代理都能基于完整、最新的交互视图进行操作。

当 CSS 扩展以支持分布式系统中的高并发对话工作负载时出现了哪些约束?

  • CSS 在 10 000 并发对话 以上遇到瓶颈,因为基于 Postgres 的系统在高活跃租户的突发流量下表现不佳。这些流量激增导致热点并削弱了平台的写入性能。
  • 为了解决此问题,团队转向 水平扩展的 No‑SQL DB,在租户层面对事件进行缓冲和批处理,以应对不断增长的摄入速率。
  • 他们还引入了 Kafka 并基于会话级别分区,以更均匀地分配负载,在流量到达存储之前平滑峰值。

此转变仍有权衡:异步处理在写入与读取之间引入了延迟。这些写后读的间隙可能影响代理工作流,因此团队加入了 VegaCache,在持久化跟上之前直接提供最近的写入数据。

这些改动使 CSS 能够有效提升吞吐量。现在系统保持更快的写后读一致性,并为 AI 驱动的实时对话工作负载提供实时洞察。

什么规模的压力塑造了 CSS 架构,从 1 万到 5 万,再到 10 万并发对话?

对话平台经历了架构演进,以实现 UACP 北极星和 CSS 目标。每个规模拐点都会暴露特定的限制,并推动后续的设计决策。

规模(并发)关键挑战架构响应
~10 000事务系统表现良好基线设计
~25 000流量不均——某些租户产生不成比例的负载转向分布式存储
~30 000需要稳定摄取添加 Kafka 进行缓冲和批处理
~50 000异步管道的延迟影响实时工作流引入 VegaCache 实现写后读一致性
~100 000(目标)进一步的延迟和真相来源问题正在转向 curated Kafka——将对话流转变为有序的真相来源,并减少对多个存储层的依赖

对话存储服务架构图

随着 AI 驱动的对话工作负载在数量、负载大小和实时性要求上增加,出现了哪些复杂性?

AI 驱动的对话工作负载显著提升了数据的量级和复杂度。现代交互现在包括:

  • 更长的对话更大的负载(例如,对话式电子邮件、语音转录、AI 生成的回复)。
  • 对人类坐席和自动化系统的 近实时访问 需求,使得低延迟、持续一致的检索变得至关重要。

为了解决这些挑战,CSS 引入了多项数据效率和访问优化:

  1. 压缩 – 减少大负载的存储占用和网络带宽。
  2. 分页 – 将长对话分段获取,便于管理。
  3. VegaCache – 提供对最近更新的即时可见性,掩盖异步流式传输引入的延迟。

这些改进使 CSS 能够支持平台范围内 100 000 并发对话 的目标,确保 AI 驱动的坐席和人类用户都能基于完整、最新的交互视图进行操作。

Vice Cloud 现代化平台 (SCRT2) 组件

  • CS 实现高吞吐量摄取。
  • Ajna 稳定数据流。
  • ZOS 扩展存储。
  • VegaCache 保持实时可视性。

它们共同确保可预测的扩展性,同时不牺牲延迟或一致性。

在大规模摄取实时对话事件时,CSS 流式管道出现了哪些限制?

  • 消费者延迟 成为主要挑战,一旦摄取速率超过 每分钟 30,000 条事件
  • 高负载导致事件进入队列,延迟数据持久化并产生信息访问的空白。
  • 这些延迟可能会干扰需要即时数据的坐席任务和 AI 系统。

已采取的缓解措施

  • VegaCache 立即提供最近的写入,掩盖流式延迟。
  • 对话分区批处理背压控制 减少热点并稳定数据流。

这些更新帮助管道应对流量高峰,同时保持 AI 工作负载的一致性。作为 UACP 的一部分,此流式管道是 统一通信服务 (UCP) 的核心,能够将来自多个渠道的消息汇聚为单一的对话流,并在大规模下保持一致的摄取。

在确保 CSS 数据能够可靠地为下游系统(如 Data 360、核心报告和 AI 流水线)提供动力时,您遇到了哪些集成约束?

  • 多样的下游格式 给模式映射和数据转换带来了困难。
  • 为每种交互类型定义数据湖对象和数据模型对象,使集成变得缓慢且笨重。

解决方案

  • 构建了一个 元数据驱动的集成层,简化新数据类型的添加并消除手动模式工作。
  • CSS 还支持通过 S3 进行 批量导出,用于大规模分析。

这使 CSS 成为 数据分发层,而不仅仅是存储系统,能够同时服务于运营、分析和 AI 工作负载。

了解更多

0 浏览
Back to Blog

相关文章

阅读更多 »

让客户交接轻松的文件夹结构

每家机构都有这样一个版本的故事:团队成员离职、客户升级,或者你在替病假的同事顶班——于是你花了20分钟去搜索……