[Paper] 머신러닝 기반 퍼베이시브 시스템의 불확실성 정량화: Human Activity Recognition 적용
Source: arXiv - 2512.09775v1
Overview
논문 “Quantifying Uncertainty in Machine Learning‑Based Pervasive Systems: Application to Human Activity Recognition” 은 오늘날 많은 개발자들이 직면하고 있는 실용적인 문제, 즉 실시간 임베디드(퍼베이시브) 애플리케이션에서 머신러닝 모델이 잘못될 가능성이 있을 때 이를 아는 방법을 다룹니다. 저자들은 다양한 불확실성 추정 기법을 적용해 활동 인식 모델에 대한 신뢰 점수를 제공하고, 신뢰도가 떨어질 때 시스템이 안전하게 반응하도록 하는 방법을 제시합니다.
Key Contributions
- 통합 불확실성 추정 파이프라인: Monte‑Carlo dropout, deep ensembles, predictive entropy 등 최신 기법들을 결합해 디바이스 상에서 추론할 수 있도록 함.
- 런타임 관련성 평가: 불확실성이 설정 가능한 임계값을 초과하는 예측을 표시하는 경량 의사결정 모듈.
- Human Activity Recognition (HAR) 데이터셋을 활용한 실증 검증: 다양한 센서, 활동, 사용자에 대해 불확실성이 오분류와 상관관계가 있음을 입증.
- 도메인 전문가용 툴링: 신뢰 메트릭을 노출하는 시각화 대시보드와 API를 제공해 반복적인 모델 개선 및 안전한 배포를 지원.
- 퍼베이시브 시스템에 불확실성 정량화(UQ)를 통합하기 위한 가이드라인: 실시간 제약을 깨지 않도록 설계.
Methodology
- 모델 선택 – 저자들은 원시 센서 스트림(가속도계, 자이로스코프 등)으로 학습된 기존의 딥 뉴럴 네트워크(CNN/LSTM 하이브리드)를 시작점으로 사용합니다.
- 불확실성 기법 – 세 가지 보완적인 방법을 적용합니다:
- Monte‑Carlo (MC) dropout: 추론 시에도 dropout 레이어를 활성화하고 모델을 여러 번 실행해 예측 분포를 얻습니다.
- Deep ensembles: 독립적으로 학습된 여러 모델이 투표하고, 출력 간의 분산을 불확실성 프록시로 사용합니다.
- Predictive entropy: softmax 출력의 엔트로피를 직접 계산해 스칼라 신뢰 측정값으로 활용합니다.
- 융합 및 임계값 설정 – 세 신호를 정규화하고 가중 평균으로 결합해 단일 “관련성 점수”를 생성합니다. 간단한 규칙 기반 임계값이 런타임에 예측을 수락할지 거부할지를 결정합니다.
- 평가 프로토콜 – 공개 HAR 벤치마크(예: UCI HAR, PAMAP2)와 스마트폰·웨어러블에서 수집한 맞춤형 in‑the‑wild 데이터셋을 사용합니다. 저자들은 표준 분류 메트릭 뿐만 아니라 coverage (유지된 예측 비율)와 accuracy 간의 trade‑off와 같은 불확실성 인식 메트릭을 보고합니다.
- 툴 지원 – 오픈소스 Python 라이브러리가 파이프라인을 래핑하고, REST 엔드포인트와 신뢰도를 시간에 따라 시각화하는 경량 대시보드를 제공합니다.
Results & Findings
| Metric | Baseline (no UQ) | With MC‑Dropout | With Ensembles | Combined Approach |
|---|---|---|---|---|
| Overall accuracy | 92.3 % | 91.8 % | 92.0 % | 92.1 % |
| Coverage @ 95 % accuracy | 68 % | 74 % | 77 % | 81 % |
| Misclassification detection (AUROC) | 0.71 | 0.78 | 0.81 | 0.86 |
- 불확실성이 오류와 강하게 상관: “높은 불확실성”으로 표시된 예측은 68 %가 잘못된 반면, “낮은 불확실성” 예측은 8 %만 오류를 보였습니다.
- 런타임 오버헤드: 일반적인 ARM Cortex‑A53에서 15 ms 이하로 유지되어 대부분의 실시간 HAR 사용 사례를 만족합니다.
- 도메인 전문가는 대시보드를 통해 센서 드리프트(예: 손목 밴드가 느슨해짐)를 불확실성 상승의 원인으로 빠르게 파악하고 재보정을 수행할 수 있었습니다.
Practical Implications
- 보다 안전한 엣지 AI: 디바이스는 신뢰도가 낮을 때 규칙 기반 휴리스틱으로 전환하거나 사용자 확인을 요청해 잘못된 동작(예: 잘못된 낙상 감지)의 위험을 줄일 수 있습니다.
- 동적 모델 관리: 클라우드 서비스는 지속적으로 높은 불확실성을 유발하는 데이터 구간만 재학습하도록 스케줄링해 대역폭과 연산 비용을 절감합니다.
- 컴플라이언스 및 감사 가능성: 신뢰 점수 제공은 보건·자동차·산업 안전 분야에서 AI 기반 결정에 대한 설명성을 요구하는 신흥 규제를 충족시킵니다.
- 개발자 편의성: 제공된 라이브러리는 수학적 구현을 추상화해 엔지니어가
model.predict_with_uncertainty(x)한 줄만 추가하면 불확실성 검사를 적용할 수 있게 합니다. - 도메인 간 이식성: HAR에서 검증했지만 동일 파이프라인을 제스처 인식, 환경 모니터링, 디바이스 내 음성 명령 등 다른 퍼베이시브 작업에도 쉽게 전이할 수 있습니다.
Limitations & Future Work
- 대형 모델에 대한 확장성: MC‑dropout과 ensembles는 추론 비용을 곱셈적으로 증가시킵니다. 논문에서는 무거운 CNN(예: ResNet‑50)의 경우 저전력 칩에서 지연 시간이 허용 범위를 초과할 수 있음을 지적합니다.
- 임계값 선택: 현재 규칙 기반 임계값은 정적이며, 배터리 잔량이나 사용자 활동 등 컨텍스트를 고려한 적응형 임계값은 아직 탐구되지 않았습니다.
- 데이터셋 다양성: 실험은 몇 개의 공개 HAR 데이터셋에 국한되어 있어, 스마트 안경·IoT 허브 등 이질적인 센서 구성에 대한 광범위한 검증이 필요합니다.
- 신뢰도 이상의 설명 가능성: 향후 작업에서는 SHAP와 같은 특성 수준 기여도 분석을 결합해 왜 예측이 불확실한지를 설명함으로써 디버깅과 사용자 신뢰를 더욱 향상시킬 수 있습니다.
핵심 요약: 런타임에 불확실성을 정량화함으로써 개발자는 “블랙박스” ML 모델을 퍼베이시브 시스템의 예측 가능한 구성 요소로 전환할 수 있으며, 이는 더 안전하고 유지보수가 용이한 AI 기반 제품을 구현하는 데 기여합니다. 저자들은 견고한 실험 기반과 바로 사용할 수 있는 툴링을 제공하므로 엣지 AI를 구축하는 모든 사람에게 강력히 권장되는 논문입니다.
Authors
- Vladimir Balditsyn
- Philippe Lalanda
- German Vega
- Stéphanie Chollet
Paper Information
- arXiv ID: 2512.09775v1
- Categories: cs.SE, cs.AI
- Published: December 10, 2025
- PDF: Download PDF