[Paper] TingIS：企业规模下从噪声客户事件中实时发现风险事件

发布: 16小时前 (2026年4月24日 GMT+8 01:40)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.21889v1

概述

本文介绍了 TingIS，一个面向生产的系统，能够将嘈杂且大量的客户事件报告转化为大型云原生服务的实时风险警报。通过将快速索引与大语言模型（LLM）以及分层噪声过滤管道相结合，TingIS 能在几分钟内呈现可操作的事件——这对于防止代价高昂的宕机至关重要。

Hybrid event‑linking engine: 将传统相似度索引与 LLM 驱动的语义推理相结合，以决定何时不同的事件消息属于同一底层风险事件。
Cascaded business‑routing architecture: 动态地将事件归属到正确的产品线或服务域，提升下游分流效率。
Multi‑dimensional noise‑reduction pipeline: 利用领域本体、统计异常检测以及用户行为信号，抑制无关噪声，同时保留罕见的高影响报告。
Scalable production deployment: 能够处理 >2 k 条消息/分钟（≈30 万条/天），90 百分位的警报延迟为 3.5 分钟，且对高优先级事件的发现率达到 95 %。
Empirical validation: 在真实事件流上的基准测试显示，与基线聚类或规则系统相比，路由准确率、聚类质量和信噪比均有显著提升。

摄取与索引 – 进入的事件工单首先被分词并存入近似最近邻（ANN）索引（例如 HNSW）。这为任何新消息提供亚毫秒级的候选检索。
LLM 增强相似度评分 – 对每一对候选，轻量级 LLM（例如蒸馏的 transformer）生成语义相似度分数，捕捉纯词法度量遗漏的细微业务术语、缩写和上下文。
事件关联决策 – 通过历史标记事件学习得到的校准阈值决定两条消息是否合并为单个“风险事件”。系统以流式方式运行，增量更新聚类。
级联路由 – 事件形成后，层级分类器（基于规则的过滤器 → 浅层机器学习模型 → 基于 LLM 的意图识别器）将事件路由至相应的服务团队或升级路径。
噪声削减 – 三个正交过滤器剔除伪数据：
- 领域知识过滤器 – 使用已策划的错误码、服务名称和去重模式本体。
- 统计过滤器 – 基于频率、时间突发性和历史严重性分布标记异常值。
- 行为过滤器 – 对信任分数低或重复提交低严重性报告的用户进行降权。
警报生成 – 清洗并路由后的事件通过现有的事件管理 API 触发警报，遵守 SLA 延迟预算。

作者还报告称，LLM 增强的相似度步骤每对候选仅增加约 15 毫秒，使端到端流水线仍然远低于所需的延迟预算。真实场景的 A/B 测试显示，对关键事件的平均解决时间（MTTR）有可衡量的降低。

总体而言，TingIS 证明了经过深思熟虑的经典信息检索技术与现代 LLM 的融合，能够从嘈杂的客户数据中实现企业级、实时的风险发现——这是一套许多 DevOps 与可靠性团队可以借鉴到自身事件流水线的蓝图。