[Paper] 소규모 이벤트 로그를 위한 예측 프로세스 모니터링에서 LLM 특징 탐색

발행: 3주 전 (2026년 1월 17일 오전 02:54 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2601.11468v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

개요

이 논문은 대형 언어 모델(LLM)을 활용하여 Predictive Process Monitoring—실행 중인 비즈니스 프로세스의 미래 결과(예: 남은 시간, 다음 활동)를 예측하는 작업—에 어떻게 적용할 수 있는지를 조사한다. 기존 LLM‑기반 프레임워크를 확장함으로써, 저자들은 **극소량의 이벤트 로그(≈100 트레이스)**만으로도 LLM이 전통적인 머신‑러닝 베이스라인을 여러 핵심 성과 지표(KPIs)에서 능가할 수 있음을 보여준다.

주요 기여

범용 LLM 프레임워크는 자연어 프롬프트를 통해 두 가지 총 소요 시간 예측과 활동 발생 예측을 처리합니다.
실증적 증거는 LLM이 데이터가 부족한 상황에서 세 개의 실제 이벤트 로그에 대해 최첨단 베이스라인을 능가한다는 것입니다.
의미적 활용 분석은 모델이 제한된 학습 데이터의 패턴 외에도 사전 학습된 세계 지식(프로세스 의미, 시간 추론)을 활용한다는 것을 보여줍니다.
추론 전략 해석은 LLM이 기존 예측 방법을 단순히 암기하거나 복제하는 것이 아니라 고차원 추론을 수행한다는 것을 보여줍니다.

방법론

데이터셋 준비 – 세 개의 공개 이벤트 로그(예: BPI 챌린지 로그)를 100개의 트레이스로 잘라 낮은 데이터 환경을 시뮬레이션했습니다. 각 트레이스는 타임스탬프가 포함된 활동 시퀀스를 담고 있습니다.
프롬프트 설계 – 각 KPI에 대해 간결한 자연어 프롬프트를 제작했습니다(예: “다음은 대출 승인 프로세스의 부분 실행입니다. 남은 전체 시간을 예측하세요”). 트레이스 데이터는 짧은 텍스트 설명 형태로 프롬프트에 직접 삽입했습니다.
모델 파인튜닝 vs. 제로샷 – 저자는 (a) 100‑트레이스 학습 세트에 대해 GPT‑계열 LLM을 몇 샷 파인튜닝한 경우와 (b) 사전 학습된 모델을 그대로 사용한 순수 제로샷 프롬프트를 실험했습니다.
베이스라인 – 동일한 제한된 데이터로 학습된 전통적인 프로세스 마이닝 예측기(예: 전이 시스템 기반, 랜덤 포레스트, LSTM)를 벤치마크로 사용했습니다.
평가 지표 – 전체 시간 예측에 대한 평균 절대 오차(Mean Absolute Error, MAE)와 활동 발생 예측에 대한 F1‑score를 사용했습니다. 통계적 유의성은 짝지은 t‑검정(paired t‑tests)으로 평가했습니다.
추론 분석 – “당신의 추론을 설명하세요”와 같은 프롬프트 엔지니어링 실험 및 어텐션 가중치 검사를 통해 LLM이 사전 지식을 활용하고 있는지, 아니면 단순히 학습 트레이스에 맞춰지는지를 파악했습니다.

결과 및 발견

KPI	LLM (few‑shot)	LLM (zero‑shot)	최고 기준선	상대 이득
총 시간 (MAE)	3.2 h	3.5 h	4.8 h (LSTM)	≈30 % 낮은 오류
활동 발생 (F1)	0.78	0.74	0.66 (Random Forest)	≈12 % 높은 F1

LLM은 100개의 트레이스만 사용할 때도 모든 기준선보다 일관되게 우수한 성능을 보였습니다.
제로‑샷 성능만으로도 이미 경쟁력을 갖추었으며, 이는 사전 학습된 지식(예: 일반적인 프로세스 소요 시간, 인과 관계)이 의미 있게 기여함을 확인시켜 줍니다.
파인‑튜닝을 통해 약간의 향상이 있었으며, 이는 모델이 도메인 특유의 특성에 빠르게 적응할 수 있음을 나타냅니다.
정성적 탐색 결과, LLM은 종종 논리적 제약(“활동 X는 Y 뒤에 올 수 없음”)을 인용했으며, 이는 학습 데이터에 명시적으로 포함되지 않은 고차원 추론 능력을 보여줍니다.

실용적인 시사점

빠른 배포: 기업은 최소한의 과거 데이터를 사용해 예측 모니터링을 시작할 수 있어, 전통적인 ML 파이프라인을 괴롭히는 “콜드‑스타트” 문제를 줄일 수 있습니다.
엔지니어링 오버헤드 감소: 각 프로세스마다 맞춤형 특징 추출 파이프라인을 구축하는 대신, 개발자는 원시 이벤트 로그를 프롬프트에 입력하고 예측을 얻을 수 있어, LLM을 “플러그‑앤‑플레이” 예측기로 활용할 수 있습니다.
설명 가능성: 모델에 자연어 근거를 요청할 수 있는 능력은 예측을 정당화해야 하는 컴플라이언스 팀과 프로세스 분석가에게 도움이 될 수 있습니다.
프로세스 간 전이: LLM이 일반적인 프로세스 의미를 담고 있기 때문에, 몇 가지 예시만으로도 다양한 도메인(예: 금융, 의료)에서 재사용할 수 있어, 가치 실현 시간을 가속화합니다.

제한 사항 및 향후 연구

확장성: 프롬프트 길이 제한으로 인해 매우 긴 트레이스는 잘라내거나 요약해야 하며, 이 과정에서 유용한 컨텍스트가 손실될 수 있습니다.
비용 및 지연 시간: 대형 LLM(특히 파인튜닝된 버전)을 실행하면 경량 분류기보다 더 높은 컴퓨팅 비용이 발생합니다.
노이즈가 있는 로그에 대한 견고성: 본 연구는 깔끔하고 구조화된 로그를 사용했으며, 실제 환경의 이벤트 데이터는 종종 타임스탬프가 누락되거나 활동이 잘못 라벨링되어 있습니다.
향후 연구 방향: 저자들이 제안한 바에 따르면, 더 긴 히스토리를 처리하기 위한 검색 기반 프롬프트 활용, 도메인 특화 온톨로지를 통합하여 추론 정확성을 높이는 방안, 그리고 더 크고 노이즈가 많은 데이터셋에서 벤치마크를 수행하여 견고성을 평가하는 것이 포함됩니다.

저자

Alessandro Padella
Massimiliano de Leoni
Marlon Dumas

논문 정보

arXiv ID: 2601.11468v1
분류: cs.AI, cs.IT
발행일: 2026년 1월 16일
PDF: Download PDF

[Paper] 소규모 이벤트 로그를 위한 예측 프로세스 모니터링에서 LLM 특징 탐색

개요

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 설명은 대규모 추론 모델에 걸쳐 일반화될까?

[Paper] Gemini용 프로덕션 준비 프로브 구축

[Paper] ShapeR: 일상적인 캡처에서 강인한 조건부 3D 형태 생성

[Paper] MetaboNet: 제1형 당뇨병 관리를 위한 가장 큰 공개 통합 데이터셋