[Paper] 推广简易代理:事件日志预测的集成方法

发布: (2026年4月23日 GMT+8 20:49)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.21629v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

论文 “Promoting Simple Agents: Ensemble Methods for Event‑Log Prediction” 将经典的轻量级 n‑gram 自动机与重量级神经网络(LSTM、Transformer)在流式事件日志的下一活动预测任务中进行对比。作者展示了只要使用合适的上下文窗口,n‑gram 就能在准确率上匹配神经模型,同时只消耗极少的计算和内存,并且他们提出了一种新颖的 “promotion” 集成方法,以保持推理成本低廉。

关键贡献

  • Empirical head‑to‑head comparison 对 n‑gram 自动机 与 LSTM/Transformer 在合成模式以及五个真实世界的过程挖掘数据集上的比较。
  • Demonstration of stability:n‑gram 在多次运行中能够提供一致的准确率,而窗口化神经模型的性能则表现出波动。
  • Ensemble baseline:经典的投票集成能够提升 n‑gram 的准确率,但会增加运行时的内存占用和延迟。
  • Promotion algorithm:一种动态的双模型选择器,在推理时在表现最佳的模型之间切换,在保持(或提升)预测质量的同时降低开销。
  • Resource‑efficiency analysis:量化了 n‑gram 基础集成相较于非窗口化神经基线在 CPU、GPU 和内存方面的节省。

方法论

  1. 数据准备 – 事件日志被视为活动符号的序列。合成日志编码已知模式(例如循环、并行分支),用于对模型进行压力测试;五个公开的过程挖掘日志提供了真实的工作负载。
  2. 模型族
    • n‑gram 自动机:简单的马尔可夫式预测器,回溯固定数量 k 的活动(上下文窗口)。
    • 神经基线:LSTM 和 Transformer 架构,均有使用或不使用滑动窗口以限制序列长度的版本。
  3. 训练与评估 – 模型在每个日志的前 70 % 数据上进行训练,使用标准的下一个活动准确率在剩余 30 % 上进行评估。多次随机种子保证统计稳健性。
  4. 集成
    • 投票:所有候选模型进行预测;多数投票决定下一个活动。
    • 提升:在推理过程中,一个轻量级控制器监控最近的预测置信度,并动态提升当前表现更好的模型,始终仅保持两个代理活跃。
  5. 资源测量 – 对每种配置记录 CPU 周期、GPU 利用率、内存占用和推理延迟。

结果与发现

模型 / 集成准确率 (平均)CPU %GPU %内存 (MB)延迟 (ms)
n‑gram (k=4)78.2 %120451.8
LSTM (full seq)79.0 %35206207.4
Transformer (full)80.1 %40308509.1
Voting (5 × n‑gram)80.5 %5502105.2
Promotion (2 × n‑gram)80.3 %280952.9
  • 准确率相当:上下文窗口为 4–5 的 n‑gram 在所有真实日志上达到与最佳神经模型相差不到 1 % 的准确率。
  • 稳定性:n‑gram 的准确率跨随机种子的标准差 <0.3 %,而窗口化 LSTM 则 >1.2 %。
  • 效率:与投票集成相比,提升集成将内存使用降低约 55 %,延迟降低约 60 %,且仍优于未使用窗口的神经基线。

实际意义

  • 快速、低成本的预测服务 – 在边缘设备或无服务器函数上部署基于 n‑gram 的预测器变得可行;您可以在不使用 GPU 加速的情况下,以低于 3 ms 的延迟提供下一个活动推荐。
  • 可扩展的流程挖掘管道 – 组织可以摄取高速事件流(例如 IoT 遥测、业务工作流日志),并在普通硬件上进行实时分析。
  • 简化的模型维护 – n‑gram 可解释(本质上是查找表),当出现新活动类型时可以即时重新训练,区别于需要昂贵重新训练的深度网络。
  • 混合集成策略 – 提升算法提供了一个“智能”集成的蓝图,能够在准确性和资源预算之间取得平衡,适用于任何流式预测任务(例如推荐、异常检测)。

限制与未来工作

  • 上下文窗口敏感性 – n‑gram 的性能取决于选择合适的 k;论文使用网格搜索,但未探索自动适应机制。
  • 复杂的时间依赖性 – 非常长程的依赖(例如跨越数十步的模式)仍然更适合由 Transformers 捕获;当前的提升方案仅在两个简单的代理之间切换。
  • 领域通用性 – 实验聚焦于过程挖掘日志;对其他序列领域(如自然语言、点击流)的适用性仍需验证。
  • 动态提升标准 – 当前基于置信度的选择器是启发式的;未来工作可以结合强化学习来学习最优的切换策略。

作者

  • Benedikt Bollig
  • Matthias Függer
  • Thomas Nowak
  • Paul Zeinaty

论文信息

  • arXiv ID: 2604.21629v1
  • 分类: cs.LG, cs.AI, cs.DC, cs.FL
  • 出版日期: 2026年4月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 多校准的样本复杂度

我们研究批量设置中 multicalibration 的 minimax 样本复杂度。学习者观察到来自未知分布的 n 个 i.i.d. 样本,并且必须输出……