[Paper] 关于内聚与分离的故事:无标签度量用于日志解析器评估

发布: (2025年12月26日 GMT+8 08:44)
6 min read
原文: arXiv

Source: arXiv - 2512.21811v1

概述

日志解析是自动日志分析的核心,将原始、自由形式的日志字符串转换为机器能够推理的结构化事件模板。新论文提出了 PMSS(Parser Medoid Silhouette Score),一种 无标签(label‑free)度量,使工程师能够在 无需手工制作的真实模板(ground‑truth templates)的情况下评估和比较解析器——这在生产环境中是常见的瓶颈。

关键贡献

  • 无标签评估:PMSS 在没有任何预标记数据的情况下衡量解析器质量,规避了昂贵且易出错的标注过程。
  • 模板层面关注:不同于基于 token 的度量,PMSS 评估生成的模板集合的内聚性(同一解析器产生的模板相似程度)和分离度(与其他解析器的模板区别程度)。
  • 近线性运行时间:该度量利用 medoid silhouette 分析和 Levenshtein 距离,即使在大型日志语料上也实现了实际近线性的时间复杂度。
  • 实证验证:在修正后的 Loghub 2.0 数据集上实验表明,PMSS 与已建立的基于标签的度量 FGA 和 FTA 之间具有很强的相关性(Spearman ρ ≈ 0.6)。
  • 实践者指南:作者提供了在解析器选择流水线中使用 PMSS 的具体步骤,并讨论了如何将其分数与传统度量一起解释。

方法论

  1. Parser clustering:将每个日志解析器的输出(提取的模板集合)视为一个簇。
  2. Medoid identification:对每个簇,选取medoid——即该簇中与所有其他模板的平均 Levenshtein 距离最小的模板。
  3. Silhouette computation
    • Cohesion (a):模板与其所属簇的 medoid 之间的平均 Levenshtein 距离。
    • Separation (b):模板与最近的其他解析器的 medoid 之间的平均距离。
    • 模板的 silhouette 分数为 (b - a) / max(a, b)
  4. PMSS aggregation:最终的 PMSS 为 所有 解析器的 所有 模板的 silhouette 分数的平均值。PMSS 越高,表示解析器生成的模板在内部一致性上更好,并且彼此之间的区分度更大。
  5. Complexity:计算两两之间的 Levenshtein 距离的复杂度上界为 O(N · L),其中 N 为模板数量,L 为平均模板长度,使该方法能够扩展到数百万条日志行。

结果与发现

解析器(已选)PMSSFGA(基于标签)FTA(基于标签)
Parser A (best PMSS)0.730.810.68
Parser B (best FGA)0.710.830.70
  • 相关性:PMSS 与 FGA 的相关系数为 ρ = 0.648, 与 FTA 的相关系数为 ρ = 0.587, 与 FGA 与 FTA 之间的相关系数(ρ = 0.670)相当。
  • 性能差距:按 PMSS 排名最高的解析器与最高 FGA 分数相差 2.1 %, 与最高 FTA 分数相差 9.8 %, 表明 PMSS 能可靠地挑选出同等高质量的解析器。
  • 统计显著性:PMSS 与基于标签的指标之间的正向关系具有高度显著性(p < 1e‑8)。

实际意义

  • Zero‑label 部署:团队现在可以在没有真实标签的生产日志上对新或自定义解析器进行基准测试,加速评估循环。
  • 稳健的解析器选择:通过关注模板内聚和分离,PMSS 有助于避免对特定标注数据集的“过拟合”,从而产生在不同环境中更具泛化能力的解析器。
  • 持续监控:PMSS 可以集成到 CI/CD 流水线中,自动标记代码更改或配置调整后解析器质量的回退。
  • 成本节约:消除手动标注的需求可降低人工成本,并降低以往研究中困扰的真实标签版本不一致的风险。

限制与未来工作

  • 依赖 Levenshtein 距离:虽然速度快,但 Levenshtein 可能无法捕捉高度可变模板的语义相似性(例如时间戳、ID)。
  • 假设解析器生成可比较的模板集合:如果解析器过于激进(生成大量细小模板)或过于保守(生成少量通用模板),轮廓系数可能会出现偏差。
  • 可扩展性极端情况:极大的模板词汇表(数千万)仍可能挑战近线性声明;优化的近似距离度量可能有所帮助。
  • 未来方向:作者计划探索替代的字符串相似度度量,将 PMSS 扩展到多模态日志(例如 JSON + 纯文本),并在真实的事件响应数据集上验证该指标。

作者

  • Qiaolin Qin
  • Jianchen Zhao
  • Heng Li
  • Weiyi Shang
  • Ettore Merlo

论文信息

  • arXiv ID: 2512.21811v1
  • 分类: cs.SE
  • 发布日期: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »