[Paper] 단순 에이전트 촉진: 이벤트 로그 예측을 위한 앙상블 방법
Source: arXiv - 2604.21629v1
개요
논문 “Promoting Simple Agents: Ensemble Methods for Event‑Log Prediction” 은 고전적인 경량 n‑gram 자동자를 무거운 신경망(LSTM, Transformer)과 비교하여 스트리밍 이벤트 로그에서 다음 활동을 예측하는 작업을 수행합니다. 저자들은 적절한 컨텍스트 윈도우를 사용하면 n‑gram이 신경망 모델의 정확도에 맞먹으면서도 계산량과 메모리를 훨씬 적게 사용할 수 있음을 보여주며, 추론 비용을 낮게 유지하는 새로운 “promotion” 앙상블 방식을 소개합니다.
주요 기여
- 경험적 직접 비교: n‑gram 자동화와 LSTM/Transformer를 합성 패턴 및 다섯 개 실제 프로세스 마이닝 데이터셋에서 비교.
- 안정성 입증: n‑gram은 실행마다 일관된 정확도를 제공하는 반면, 윈도우 기반 신경망 모델은 성능 변동이 큼.
- 앙상블 기준선: 전통적인 투표 앙상블은 n‑gram 정확도를 향상시키지만 실행 시 메모리와 지연 시간을 증가시킴.
- 프로모션 알고리즘: 추론 시 최고의 성능을 보이는 에이전트로 전환하는 동적 두 모델 선택기로, 오버헤드를 줄이면서 예측 품질을 유지(또는 향상)함.
- 자원 효율성 분석: 비윈도우 신경망 기준선과 비교하여 n‑gram 기반 앙상블의 CPU, GPU 및 메모리 절감량을 정량화함.
방법론
-
Data preparation – Event logs are treated as sequences of activity symbols. Synthetic logs encode known patterns (e.g., loops, parallel branches) to stress‑test models; five public process‑mining logs provide realistic workloads.
데이터 준비 – 이벤트 로그는 활동 기호의 시퀀스로 취급됩니다. 합성 로그는 알려진 패턴(예: 루프, 병렬 분기)을 인코딩하여 모델을 스트레스 테스트하고, 다섯 개의 공개 프로세스 마이닝 로그는 현실적인 워크로드를 제공합니다. -
Model families
- n‑gram automata: simple Markov‑style predictors that look back a fixed number k of activities (the context window).
- Neural baselines: LSTM and Transformer architectures, both with and without sliding windows to limit sequence length.
모델 군 - n‑gram 자동화: 고정된 수 k의 활동을 되돌아보는 단순 마코프 스타일 예측기(컨텍스트 윈도우).
- 신경망 베이스라인: LSTM 및 Transformer 아키텍처로, 시퀀스 길이를 제한하기 위해 슬라이딩 윈도우를 사용하거나 사용하지 않는 두 경우 모두.
-
Training & evaluation – Models are trained on the first 70 % of each log and evaluated on the remaining 30 % using standard next‑activity accuracy. Multiple random seeds ensure statistical robustness.
학습 및 평가 – 모델은 각 로그의 처음 70 %를 사용해 학습하고, 나머지 30 %에 대해 표준 다음 활동 정확도를 사용해 평가합니다. 여러 랜덤 시드를 사용해 통계적 견고성을 확보합니다. -
Ensembling
- Voting: all candidate models predict; the majority vote decides the next activity.
- Promotion: during inference a lightweight controller monitors recent prediction confidence and dynamically promotes the currently better‑performing model, keeping only two agents active at any moment.
앙상블 - 투표: 모든 후보 모델이 예측하고, 다수결 투표로 다음 활동을 결정합니다.
- 프로모션: 추론 중에 경량 컨트롤러가 최근 예측 신뢰도를 모니터링하고 현재 성능이 더 좋은 모델을 동적으로 승격시켜, 언제든지 두 개의 에이전트만 활성화 상태를 유지합니다.
-
Resource measurement – CPU cycles, GPU utilization, memory footprint, and inference latency are logged for each configuration.
자원 측정 – 각 구성에 대해 CPU 사이클, GPU 활용도, 메모리 사용량 및 추론 지연 시간이 기록됩니다.
결과 및 발견
| 모델 / 앙상블 | 정확도 (평균) | CPU % | GPU % | 메모리 (MB) | 지연 시간 (ms) |
|---|---|---|---|---|---|
| n‑gram (k=4) | 78.2 % | 12 | 0 | 45 | 1.8 |
| LSTM (full seq) | 79.0 % | 35 | 20 | 620 | 7.4 |
| Transformer (full) | 80.1 % | 40 | 30 | 850 | 9.1 |
| Voting (5 × n‑gram) | 80.5 % | 55 | 0 | 210 | 5.2 |
| Promotion (2 × n‑gram) | 80.3 % | 28 | 0 | 95 | 2.9 |
- 정확도 동등성: 컨텍스트 윈도우가 4–5인 n‑gram은 모든 실제 로그에서 최고의 신경망 모델보다 1 % 이내의 정확도를 달성합니다.
- 안정성: 시드 간 정확도 표준 편차가 n‑gram은 <0.3 %, 윈도우 LSTM은 >1.2 %입니다.
- 효율성: 프로모션 앙상블은 투표 앙상블에 비해 메모리 사용량을 약 55 % 줄이고 지연 시간을 약 60 % 감소시키며, 여전히 비윈도우 신경망 기준 모델보다 우수합니다.
Practical Implications
- Fast, low‑cost prediction services – Deploying n‑gram‑based predictors on edge devices or serverless functions becomes feasible; you can serve next‑activity recommendations with sub‑3 ms latency without GPU acceleration.
- Scalable process‑mining pipelines – Organizations can ingest high‑velocity event streams (e.g., IoT telemetry, business workflow logs) and run real‑time analytics on commodity hardware.
- Simplified model maintenance – n‑grams are interpretable (they are essentially lookup tables) and can be retrained instantly when new activity types appear, unlike deep nets that require costly re‑training.
- Hybrid ensemble strategy – The promotion algorithm offers a blueprint for “smart” ensembles that balance accuracy and resource budgets, useful for any streaming prediction task (e.g., recommendation, anomaly detection).
제한 사항 및 향후 연구
- 컨텍스트‑윈도우 민감도 – n‑gram 성능은 적절한 k 선택에 좌우되며, 논문에서는 그리드 서치를 사용했지만 자동 적응 메커니즘은 탐구되지 않았다.
- 복잡한 시간적 의존성 – 수십 단계에 걸친 매우 장기 의존성은 트랜스포머가 더 잘 포착한다; 현재 승격 스킴은 두 개의 단순 에이전트 사이만 전환한다.
- 도메인 일반성 – 실험은 프로세스‑마이닝 로그에 초점을 맞추었으며, 다른 순차 도메인(예: 자연어, 클릭스트림)에 대한 적용 가능성은 검증이 필요하다.
- 동적 승격 기준 – 현재 신뢰도‑기반 선택자는 휴리스틱이며, 향후 연구에서는 강화학습을 통합해 최적 전환 정책을 학습할 수 있다.
저자
- Benedikt Bollig
- Matthias Függer
- Thomas Nowak
- Paul Zeinaty
논문 정보
- arXiv ID: 2604.21629v1
- 카테고리: cs.LG, cs.AI, cs.DC, cs.FL
- 출판일: 2026년 4월 23일
- PDF: PDF 다운로드