[Paper] 소규모 이벤트 로그를 위한 예측 프로세스 모니터링에서 LLM 특징 탐색
발행: (2026년 1월 17일 오전 02:54 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2601.11468v1
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
개요
이 논문은 대형 언어 모델(LLM)을 활용하여 Predictive Process Monitoring—실행 중인 비즈니스 프로세스의 미래 결과(예: 남은 시간, 다음 활동)를 예측하는 작업—에 어떻게 적용할 수 있는지를 조사한다. 기존 LLM‑기반 프레임워크를 확장함으로써, 저자들은 **극소량의 이벤트 로그(≈100 트레이스)**만으로도 LLM이 전통적인 머신‑러닝 베이스라인을 여러 핵심 성과 지표(KPIs)에서 능가할 수 있음을 보여준다.
주요 기여
- 범용 LLM 프레임워크는 자연어 프롬프트를 통해 두 가지 총 소요 시간 예측과 활동 발생 예측을 처리합니다.
- 실증적 증거는 LLM이 데이터가 부족한 상황에서 세 개의 실제 이벤트 로그에 대해 최첨단 베이스라인을 능가한다는 것입니다.
- 의미적 활용 분석은 모델이 제한된 학습 데이터의 패턴 외에도 사전 학습된 세계 지식(프로세스 의미, 시간 추론)을 활용한다는 것을 보여줍니다.
- 추론 전략 해석은 LLM이 기존 예측 방법을 단순히 암기하거나 복제하는 것이 아니라 고차원 추론을 수행한다는 것을 보여줍니다.
방법론
- 데이터셋 준비 – 세 개의 공개 이벤트 로그(예: BPI 챌린지 로그)를 100개의 트레이스로 잘라 낮은 데이터 환경을 시뮬레이션했습니다. 각 트레이스는 타임스탬프가 포함된 활동 시퀀스를 담고 있습니다.
- 프롬프트 설계 – 각 KPI에 대해 간결한 자연어 프롬프트를 제작했습니다(예: “다음은 대출 승인 프로세스의 부분 실행입니다. 남은 전체 시간을 예측하세요”). 트레이스 데이터는 짧은 텍스트 설명 형태로 프롬프트에 직접 삽입했습니다.
- 모델 파인튜닝 vs. 제로샷 – 저자는 (a) 100‑트레이스 학습 세트에 대해 GPT‑계열 LLM을 몇 샷 파인튜닝한 경우와 (b) 사전 학습된 모델을 그대로 사용한 순수 제로샷 프롬프트를 실험했습니다.
- 베이스라인 – 동일한 제한된 데이터로 학습된 전통적인 프로세스 마이닝 예측기(예: 전이 시스템 기반, 랜덤 포레스트, LSTM)를 벤치마크로 사용했습니다.
- 평가 지표 – 전체 시간 예측에 대한 평균 절대 오차(Mean Absolute Error, MAE)와 활동 발생 예측에 대한 F1‑score를 사용했습니다. 통계적 유의성은 짝지은 t‑검정(paired t‑tests)으로 평가했습니다.
- 추론 분석 – “당신의 추론을 설명하세요”와 같은 프롬프트 엔지니어링 실험 및 어텐션 가중치 검사를 통해 LLM이 사전 지식을 활용하고 있는지, 아니면 단순히 학습 트레이스에 맞춰지는지를 파악했습니다.
결과 및 발견
| KPI | LLM (few‑shot) | LLM (zero‑shot) | 최고 기준선 | 상대 이득 |
|---|---|---|---|---|
| 총 시간 (MAE) | 3.2 h | 3.5 h | 4.8 h (LSTM) | ≈30 % 낮은 오류 |
| 활동 발생 (F1) | 0.78 | 0.74 | 0.66 (Random Forest) | ≈12 % 높은 F1 |
- LLM은 100개의 트레이스만 사용할 때도 모든 기준선보다 일관되게 우수한 성능을 보였습니다.
- 제로‑샷 성능만으로도 이미 경쟁력을 갖추었으며, 이는 사전 학습된 지식(예: 일반적인 프로세스 소요 시간, 인과 관계)이 의미 있게 기여함을 확인시켜 줍니다.
- 파인‑튜닝을 통해 약간의 향상이 있었으며, 이는 모델이 도메인 특유의 특성에 빠르게 적응할 수 있음을 나타냅니다.
- 정성적 탐색 결과, LLM은 종종 논리적 제약(“활동 X는 Y 뒤에 올 수 없음”)을 인용했으며, 이는 학습 데이터에 명시적으로 포함되지 않은 고차원 추론 능력을 보여줍니다.
실용적인 시사점
- 빠른 배포: 기업은 최소한의 과거 데이터를 사용해 예측 모니터링을 시작할 수 있어, 전통적인 ML 파이프라인을 괴롭히는 “콜드‑스타트” 문제를 줄일 수 있습니다.
- 엔지니어링 오버헤드 감소: 각 프로세스마다 맞춤형 특징 추출 파이프라인을 구축하는 대신, 개발자는 원시 이벤트 로그를 프롬프트에 입력하고 예측을 얻을 수 있어, LLM을 “플러그‑앤‑플레이” 예측기로 활용할 수 있습니다.
- 설명 가능성: 모델에 자연어 근거를 요청할 수 있는 능력은 예측을 정당화해야 하는 컴플라이언스 팀과 프로세스 분석가에게 도움이 될 수 있습니다.
- 프로세스 간 전이: LLM이 일반적인 프로세스 의미를 담고 있기 때문에, 몇 가지 예시만으로도 다양한 도메인(예: 금융, 의료)에서 재사용할 수 있어, 가치 실현 시간을 가속화합니다.
제한 사항 및 향후 연구
- 확장성: 프롬프트 길이 제한으로 인해 매우 긴 트레이스는 잘라내거나 요약해야 하며, 이 과정에서 유용한 컨텍스트가 손실될 수 있습니다.
- 비용 및 지연 시간: 대형 LLM(특히 파인튜닝된 버전)을 실행하면 경량 분류기보다 더 높은 컴퓨팅 비용이 발생합니다.
- 노이즈가 있는 로그에 대한 견고성: 본 연구는 깔끔하고 구조화된 로그를 사용했으며, 실제 환경의 이벤트 데이터는 종종 타임스탬프가 누락되거나 활동이 잘못 라벨링되어 있습니다.
- 향후 연구 방향: 저자들이 제안한 바에 따르면, 더 긴 히스토리를 처리하기 위한 검색 기반 프롬프트 활용, 도메인 특화 온톨로지를 통합하여 추론 정확성을 높이는 방안, 그리고 더 크고 노이즈가 많은 데이터셋에서 벤치마크를 수행하여 견고성을 평가하는 것이 포함됩니다.
저자
- Alessandro Padella
- Massimiliano de Leoni
- Marlon Dumas
논문 정보
- arXiv ID: 2601.11468v1
- 분류: cs.AI, cs.IT
- 발행일: 2026년 1월 16일
- PDF: Download PDF