[Paper] MMA: 관성 센서를 이용한 인간 활동 인식용 모멘텀 맘바 아키텍처
발행: (2025년 11월 27일 오전 01:21 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.21550v1
개요
이 논문은 최근의 Mamba 상태‑공간 모델(SSM)을 기반으로 하여 관성 센서 스트림으로부터 인간 활동 인식(HAR)을 수행하는 새로운 신경망 구조 Momentum Mamba (MMA) 를 제안한다. 모멘텀 항을 도입함으로써—본질적으로 2차 동역학—MMA는 긴 시퀀스에 걸친 정보 흐름을 안정화시켜, 계산 비용을 크게 늘리지 않으면서도 정확도를 높이고 수렴 속도를 가속한다.
주요 기여
- 모멘텀‑보강 SSM: 기존 1차 Mamba에 2차 “모멘텀” 요소를 추가해 장기 메모리와 그래디언트 안정성을 향상시킨다.
- 복소수 모멘텀 Mamba: 아이디어를 복소수 영역으로 확장하여, 메모리의 주파수 선택적 스케일링을 가능하게 함으로써 더 풍부한 시간 표현을 제공한다.
- 포괄적인 HAR 평가: 여러 공개 관성‑센서 데이터셋(UCI HAR, PAMAP2, HHAR 등)에서 MMA를 벤치마크하고, 일반적인 Mamba, CNN/RNN 베이스라인, Transformer에 비해 일관된 성능 향상을 보인다.
- 효율성 중심 설계: FLOPs와 학습 시간의 증가가 미미한 수준에서 정확도 향상을 달성하여, SSM의 선형 시간 복잡성을 유지한다.
- 견고성 분석: 실제 웨어러블 환경에서 흔히 발생하는 센서 노이즈와 도메인 변이에 대한 회복력이 향상된 것을 입증한다.
방법론
-
기본 모델 – Mamba SSM:
- Mamba는 시퀀스를 대각선 A와 컨볼루션‑유사 D 항으로 파라미터화된 전이 행렬을 갖는 선형 상태‑공간 시스템의 출력으로 간주한다.
- 이는 O(N) 시간 복잡도(N = 시퀀스 길이)를 제공하며, 자기‑주의의 2차 비용 없이 장거리 의존성을 포착한다.
-
모멘텀 추가:
- 저자들은 상태 업데이트 방정식에 속도 항을 도입하여 1차 재귀
h_t = A·h_{t‑1} + …를 2차 형태로 변환한다:v_t = μ·v_{t‑1} + (1‑μ)·(A·h_{t‑1} + …) h_t = h_{t‑1} + v_t - 여기서 μ는 학습 가능한 모멘텀 계수(0 ≤ μ < 1)이며, 물리적 모멘텀을 모방해 급격한 변화를 완화하고 정보를 여러 단계에 걸쳐 보존한다.
- 저자들은 상태 업데이트 방정식에 속도 항을 도입하여 1차 재귀
-
복소수 모멘텀 변형:
- μ와 전이 파라미터를 복소수로 허용함으로써, 모델은 특정 주파수 대역을 선택적으로 증폭하거나 감쇠시킬 수 있다. 이는 학습 가능한 필터 뱅크와 유사하다.
-
학습 파이프라인:
- 원시 3축 가속도계와 자이로스코프 스트림을 고정 길이 윈도우(예: 50 Hz에서 2 s)로 분할한다.
- 표준 데이터 증강(지터, 스케일링, 회전)을 적용한다.
- 교차 엔트로피 손실, Adam 옵티마이저, 코사인‑annealing 학습률 스케줄을 사용해 모델을 학습한다.
결과 및 발견
| Dataset | Baseline (Transformer) | Vanilla Mamba | MMA (Momentum) | MMA‑Complex |
|---|---|---|---|---|
| UCI HAR | 94.2 % | 94.7 % | 95.6 % | 95.4 % |
| PAMAP2 | 92.1 % | 92.8 % | 94.0 % | 93.8 % |
| HHAR | 88.5 % | 89.1 % | 90.3 % | 90.1 % |
- 정확도: MMA는 Transformer와 vanilla Mamba보다 절대 0.8–1.5 % 정도 일관되게 우수하다.
- 수렴 속도: 모멘텀에 의해 그래디언트가 부드러워져, 최고 검증 정확도에 도달하는 데 약 30 % 적은 epoch이 필요하다.
- 견고성: 합성 센서 노이즈(Gaussian SNR = 10 dB) 하에서 MMA의 정확도 감소는 약 0.4 %인 반면, Transformer는 약 1.2 % 감소한다.
- 효율성: 학습 FLOPs는 vanilla Mamba 대비 약 12 % 증가하지만, 추론 지연은 선형을 유지하며 중급 모바일 CPU에서 5 ms 이하로 머문다.
실용적 함의
- 엣지‑친화적 HAR: 선형 시간·저 메모리 특성 덕분에 MMA는 웨어러블, 스마트폰, IoT 게이트웨이 등에서 온‑디바이스 활동 분류에 적합한 후보가 된다.
- 빠른 모델 반복: 수렴이 빨라 클라우드 학습 비용이 감소하고, 새로운 활동 기반 기능의 시장 출시 기간이 단축된다.
- 노이즈에 강한 배포: 향상된 견고성으로 센서 위치와 신호 품질이 변동하는 실제 환경에서 오탐이 감소한다.
- 전이 가능한 아키텍처: 모멘텀‑보강 SSM은 일반적인 시퀀스 모델이므로, 개발자는 MMA를 예측 유지보수, 음성 키워드 탐지, 금융 틱 데이터 분석 등 다른 시계열 작업에 재사용할 수 있다.
- 단순화된 파이프라인: 무거운 attention 레이어나 깊은 RNN 스택이 필요 없어 모델 서빙 스택이 간소화되고, 특수 하드웨어 가속기에 대한 의존도가 낮아진다.
제한점 및 향후 연구
- 2차 오버헤드: 추가된 속도 상태가 숨겨진 상태 크기를 두 배로 늘려, 초저전력 마이크로컨트롤러에서는 눈에 띄는 영향을 줄 수 있다.
- 복소수 모멘텀 안정성: 복소수 파라미터로 학습할 경우 초기화에 신중을 기해야 하며, 10 s 이상과 같은 매우 긴 시퀀스에서는 가끔 발산 현상이 관찰된다.
- 도메인 일반화: 실험은 벤치마크 데이터셋에 국한돼 있어, 실제 교차 피험자·교차 디바이스 일반화는 추가 검증이 필요하다.
- 향후 방향: 적응형 모멘텀 스케줄 탐색, 경량 attention과의 하이브리드로 멀티모달 입력 처리, 센서 데이터에 대한 비지도 사전학습 확장 등을 제안한다.
저자
- Thai‑Khanh Nguyen
- Uyen Vo
- Tan M. Nguyen
- Thieu N. Vo
- Trung‑Hieu Le
- Cuong Pham
논문 정보
- arXiv ID: 2511.21550v1
- Categories: cs.HC, cs.LG
- Published: 2025년 11월 26일
- PDF: Download PDF