[Paper] ToTMNet: FFT 가속 토플리츠 시계열 혼합 네트워크 경량 원격 광혈류측정을 위한
Source: arXiv - 2601.04159v1
개요
원격 광혈류측정(rPPG)은 일반적인 얼굴 비디오에서 맥파 파형을 추출하여 스마트폰, 노트북 및 IoT 카메라에서 비접촉 건강 모니터링의 문을 열어줍니다. 새로운 ToTMNet 아키텍처는 기존의 어텐션 기반 시간 인코더를 FFT 가속 토플리츠 믹싱 레이어로 교체함으로써, 엣지 디바이스에 편안히 탑재될 수 있는 모델로 최첨단 심박수 정확도를 달성할 수 있음을 보여줍니다.
주요 기여
- Toeplitz Temporal Mixing Layer – 선형 파라미터, 전체 시퀀스 시간 연산자를 도입하여 FFT 기반 컨볼루션을 통해 거의 선형 시간에 실행할 수 있습니다.
- Gated Temporal Mixer – 경량화된 depthwise 시간 컨볼루션(지역 컨텍스트)과 전역 Toeplitz mixer를 결합하여 네트워크가 짧은 범위와 긴 범위 시간 정보를 적응적으로 균형 잡을 수 있게 합니다.
- Ultra‑lightweight Design – 전체 네트워크는 63 k 파라미터만을 포함하며, 전형적인 attention‑기반 rPPG 모델보다 훨씬 적은 파라미터 수에도 불구하고 평균 절대 오차(MAE) 1.1 bpm 이하를 달성합니다.
- Cross‑Domain Robustness – 합성 훈련 데이터(SCAMPS)에서 실제 비디오(UBFC‑rPPG)로의 강력한 일반화를 보여주며, 게이팅 메커니즘이 도메인 이동을 처리하는 역할을 강조합니다.
- Open‑source‑ready Implementation – 저자들은 최소한의 오버헤드로 기존 비디오‑처리 파이프라인에 통합할 수 있는 PyTorch 구현을 제공합니다.
Methodology
- Input preprocessing – 얼굴 영역을 감지하고 각 비디오 프레임에서 잘라낸 뒤, 시간에 따른 RGB 채널과 같은 압축된 시공간 텐서로 변환합니다.
- Feature extraction backbone – 얕은 CNN이 프레임별 공간 임베딩(혈액량 변화와 연결된 색상 및 텍스처 신호)을 추출합니다.
- Temporal modeling –
- Local branch: 작은 커널(예: 3‑5 프레임)을 갖는 depthwise 1‑D 컨볼루션이 단기 동역학을 포착합니다.
- Global branch: Toeplitz mixing layer는 학습된 커널 벡터로부터 Toeplitz matrix를 구성합니다. Toeplitz matrix는 첫 번째 행/열만으로 완전히 정의되므로, 학습 가능한 파라미터 수는 클립 길이에 대해 선형적으로 증가하고, 제곱적으로 증가하지 않습니다.
- FFT acceleration: Toeplitz matrix와의 곱셈은 순환 임베딩을 이용한 컨볼루션으로 수행되며, 이는 Fast Fourier Transform (FFT)를 통해 O(N log N) 시간에 계산될 수 있어 O(N²)보다 효율적입니다.
- Gating: 시그모이드 게이트가 채널별로 로컬 브랜치와 글로벌 브랜치의 가중치를 학습하여, 비디오 구간마다 가장 유용한 시간 스케일을 강조하도록 합니다.
- Regression head – 혼합된 시간 표현을 작은 완전 연결 헤드에 전달하여 혈액량 펄스(BVP) 파형을 출력하고, 이를 통해 표준 피크 검출 방법으로 심박수를 추정합니다.
결과 및 발견
| 데이터셋 | 학습 | 테스트 | MAE (bpm) | Pearson r |
|---|---|---|---|---|
| UBFC‑rPPG (intra‑dataset) | UBFC‑rPPG | UBFC‑rPPG | 1.055 | 0.996 |
| SCAMPS → UBFC‑rPPG (cross‑domain) | SCAMPS (synthetic) | UBFC‑rPPG (real) | 1.582 | 0.994 |
- 파라미터 효율성: 63 k 파라미터 vs. 많은 attention‑기반 rPPG 네트워크에서 >1 M.
- 속도: FFT‑기반 믹싱은 중급 모바일 GPU(예: Snapdragon 8 Gen 2)에서 약 30 fps로 실행되어 실시간 제약을 충분히 만족합니다.
- 소거 실험: 게이팅 메커니즘을 제거하면 교차 도메인 MAE가 약 0.4 bpm 감소하여 도메인 이동에 대한 적응에 중요함을 확인했습니다.
- 견고성: Toeplitz 연산자의 전체 시퀀스 수용 영역 덕분에 비디오 길이가 변해도 모델은 높은 상관성을 유지합니다.
실용적 함의
- Edge deployment – 100 k 이하 파라미터 규모와 FFT 친화적 연산 덕분에 ToTMNet은 스마트폰, 웨어러블, 임베디드 카메라에서 클라우드로 오프로드하지 않고 실행할 수 있습니다.
- Real‑time health apps – 개발자는 비디오 채팅, 피트니스, 원격 의료 플랫폼에 심박수 모니터링을 삽입하여 별도 하드웨어 없이 즉시 바이탈 정보를 제공할 수 있습니다.
- Low‑power IoT – 선형 시간 복잡도는 CPU/GPU 사용량 감소로 이어져 지속적인 모니터링 장치의 배터리 수명을 연장합니다.
- Domain‑agnostic training – 게이팅이 강화된 Toeplitz 믹서는 합성‑실제 전이에도 강인하여, 대규모 저비용 합성 데이터셋으로 사전 학습한 뒤 실제 사용자 영상에서도 높은 정확도를 달성할 수 있습니다.
- Plug‑and‑play component – Toeplitz 믹싱 레이어는 장기 시간 의존성이 중요하지만 자원이 제한된 다른 비디오 시퀀스 모델(예: 행동 인식, 비디오 캡셔닝)의 어텐션 모듈을 대체할 수 있습니다.
제한 사항 및 향후 작업
- 데이터셋 범위 – 평가는 두 개의 데이터셋(하나는 실제, 하나는 합성)으로 제한됩니다. 다양한 조명, 움직임, 피부톤에 대한 폭넓은 테스트가 일반화 확인을 위해 필요합니다.
- 고정 클립 길이 – 현재 구현은 Toeplitz 커널에 대해 미리 정해진 시퀀스 길이를 가정합니다; 가변 길이 스트림을 보다 유연하게 처리하면 유연성을 향상시킬 수 있습니다.
- 하드웨어‑특정 FFT 오버헤드 – FFT는 GPU에서 빠르지만 일부 마이크로컨트롤러에서는 오버헤드가 이점을 초과할 수 있습니다; 대안적인 빠른 컨볼루션 방식을 탐색하면 적용 범위를 넓힐 수 있습니다.
- 확장된 바이탈 – 향후 작업에서는 동일한 비디오 스트림으로 호흡률, 혈중 산소 포화도, 스트레스 지표 등을 추정하도록 아키텍처를 확장할 수 있습니다.
핵심 요약: ToTMNet은 수학적으로 우아한 Toeplitz 기반 시간 믹서가 FFT로 가속되어 무거운 어텐션을 대체하면서도 자원 제한 장치에서 고정밀 rPPG를 제공할 수 있음을 보여줍니다—이는 차세대 비접촉 건강 모니터링 솔루션을 구축하는 개발자들에게 흥미로운 발전입니다.
저자
- Vladimir Frants
- Sos Agaian
- Karen Panetta
Paper Information
- arXiv ID: 2601.04159v1
- Categories: cs.CV
- Published: 2026년 1월 7일
- PDF: PDF 다운로드