[Paper] 探索 LLM 特征在小规模事件日志的预测过程监控中的应用
发布: (2026年1月17日 GMT+8 01:54)
6 min read
原文: arXiv
Source: arXiv - 2601.11468v1
概述
本文研究了如何将大型语言模型(LLM)用于预测过程监控——即在业务流程运行时预测其未来结果(例如剩余时间、下一活动)的任务。通过扩展先前的基于 LLM 的框架,作者展示即使在仅有极小的事件日志(≈100 条轨迹)的情况下,LLM 也能在多个关键绩效指标(KPIs)上超越传统机器学习基线。
关键贡献
- Generalized LLM framework 能够通过自然语言提示同时处理 both total‑time prediction 和 activity‑occurrence prediction。
- Empirical evidence 表明在三套真实业务日志的数据稀缺场景下,LLM 超越了最先进的基线方法。
- Analysis of semantic leverage 展示模型在利用有限训练数据模式的同时,还调用了其预训练的世界知识(过程语义、时间推理)。
- Interpretation of reasoning strategies 表明 LLM 进行的是高阶推理,而非仅仅记忆或复制已有的预测方法。
方法论
- Dataset preparation – 将三个公开的事件日志(例如 BPI Challenge 日志)截断至 100 条轨迹,以模拟低数据环境。每条轨迹包含带时间戳的活动序列。
- Prompt design – 为每个 KPI 制定简洁的自然语言提示(例如 “Given the following partial execution of a loan‑approval process, predict the total remaining time”)。轨迹数据直接嵌入提示中,作为简短的文本描述。
- Model fine‑tuning vs. zero‑shot – 作者尝试了 (a) 在 100 条轨迹训练集上对 GPT‑style LLM 进行 few‑shot 微调,和 (b) 使用预训练模型进行纯 zero‑shot 提示。
- Baselines – 在相同有限数据上训练的传统过程挖掘预测器(例如基于 transition‑system 的、随机森林、LSTM)作为基准。
- Evaluation metrics – 总时间预测使用平均绝对误差(MAE),活动出现预测使用 F1‑score。通过配对 t‑tests 评估统计显著性。
- Reasoning analysis – 通过 prompt‑engineering 实验(例如 “Explain your reasoning”)和 attention‑weight 检查,推断 LLM 是在利用先前知识还是仅仅拟合训练轨迹。
结果与发现
| KPI | LLM (few‑shot) | LLM (zero‑shot) | 最佳基线 | 相对增益 |
|---|---|---|---|---|
| 总时间 (MAE) | 3.2 h | 3.5 h | 4.8 h (LSTM) | ≈30 % 更低误差 |
| 活动出现率 (F1) | 0.78 | 0.74 | 0.66 (Random Forest) | ≈12 % 更高 F1 |
- 当仅有 100 条轨迹时,LLM 始终优于所有基线。
- Zero‑shot 性能已经具备竞争力,证实了 预训练知识(例如典型的过程时长、因果关系)对结果有显著贡献。
- 微调带来了适度提升,表明模型能够快速适应领域特定的细节。
- 定性探查显示,LLM 经常 引用逻辑约束(例如“活动 X 不能跟随 Y”),这些约束在训练数据中未显式编码,体现了高阶推理能力。
实际意义
- 快速部署:企业可以在最少的历史数据下开始预测监控,降低困扰传统机器学习流水线的“冷启动”问题。
- 降低工程开销:无需为每个流程构建自定义特征提取流水线,开发者只需将原始事件日志输入提示,即可获得预测,利用大模型作为“即插即用”预测器。
- 可解释性:模型能够提供自然语言的推理理由,帮助合规团队和流程分析师对预测进行解释和证明。
- 跨流程迁移:由于大模型具备通用的流程语义,可在不同领域(如金融、医疗)仅使用少量示例即可复用,加速实现价值。
限制与未来工作
- 可扩展性:提示长度限制意味着必须截断或摘要非常长的轨迹,这可能会丢失有用的上下文。
- 成本与延迟:运行大型语言模型(尤其是微调版本)相比轻量级分类器会产生更高的计算成本。
- 对噪声日志的鲁棒性:本研究使用了干净、结构良好的日志;实际环境中的事件数据常常缺少时间戳或活动标记错误。
- 未来方向:作者提出的未来方向包括:探索检索增强提示以处理更长的历史记录,整合领域特定本体以提升推理的准确性,并在更大、更嘈杂的数据集上进行基准测试以评估鲁棒性。
作者
- Alessandro Padella
- Massimiliano de Leoni
- Marlon Dumas
论文信息
- arXiv ID: 2601.11468v1
- 分类: cs.AI, cs.IT
- 出版时间: 2026年1月16日
- PDF: 下载 PDF