[Paper] ToTMNet: FFT 가속 토플리츠 시계열 혼합 네트워크 경량 원격 광혈류측정을 위한

발행: (2026년 1월 8일 오전 03:15 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.04159v1

개요

원격 광혈류측정(rPPG)은 일반적인 얼굴 비디오에서 맥파 파형을 추출하여 스마트폰, 노트북 및 IoT 카메라에서 비접촉 건강 모니터링의 문을 열어줍니다. 새로운 ToTMNet 아키텍처는 기존의 어텐션 기반 시간 인코더를 FFT 가속 토플리츠 믹싱 레이어로 교체함으로써, 엣지 디바이스에 편안히 탑재될 수 있는 모델로 최첨단 심박수 정확도를 달성할 수 있음을 보여줍니다.

주요 기여

  • Toeplitz Temporal Mixing Layer – 선형 파라미터, 전체 시퀀스 시간 연산자를 도입하여 FFT 기반 컨볼루션을 통해 거의 선형 시간에 실행할 수 있습니다.
  • Gated Temporal Mixer – 경량화된 depthwise 시간 컨볼루션(지역 컨텍스트)과 전역 Toeplitz mixer를 결합하여 네트워크가 짧은 범위와 긴 범위 시간 정보를 적응적으로 균형 잡을 수 있게 합니다.
  • Ultra‑lightweight Design – 전체 네트워크는 63 k 파라미터만을 포함하며, 전형적인 attention‑기반 rPPG 모델보다 훨씬 적은 파라미터 수에도 불구하고 평균 절대 오차(MAE) 1.1 bpm 이하를 달성합니다.
  • Cross‑Domain Robustness – 합성 훈련 데이터(SCAMPS)에서 실제 비디오(UBFC‑rPPG)로의 강력한 일반화를 보여주며, 게이팅 메커니즘이 도메인 이동을 처리하는 역할을 강조합니다.
  • Open‑source‑ready Implementation – 저자들은 최소한의 오버헤드로 기존 비디오‑처리 파이프라인에 통합할 수 있는 PyTorch 구현을 제공합니다.

Methodology

  1. Input preprocessing – 얼굴 영역을 감지하고 각 비디오 프레임에서 잘라낸 뒤, 시간에 따른 RGB 채널과 같은 압축된 시공간 텐서로 변환합니다.
  2. Feature extraction backbone – 얕은 CNN이 프레임별 공간 임베딩(혈액량 변화와 연결된 색상 및 텍스처 신호)을 추출합니다.
  3. Temporal modeling
    • Local branch: 작은 커널(예: 3‑5 프레임)을 갖는 depthwise 1‑D 컨볼루션이 단기 동역학을 포착합니다.
    • Global branch: Toeplitz mixing layer는 학습된 커널 벡터로부터 Toeplitz matrix를 구성합니다. Toeplitz matrix는 첫 번째 행/열만으로 완전히 정의되므로, 학습 가능한 파라미터 수는 클립 길이에 대해 선형적으로 증가하고, 제곱적으로 증가하지 않습니다.
    • FFT acceleration: Toeplitz matrix와의 곱셈은 순환 임베딩을 이용한 컨볼루션으로 수행되며, 이는 Fast Fourier Transform (FFT)를 통해 O(N log N) 시간에 계산될 수 있어 O(N²)보다 효율적입니다.
    • Gating: 시그모이드 게이트가 채널별로 로컬 브랜치와 글로벌 브랜치의 가중치를 학습하여, 비디오 구간마다 가장 유용한 시간 스케일을 강조하도록 합니다.
  4. Regression head – 혼합된 시간 표현을 작은 완전 연결 헤드에 전달하여 혈액량 펄스(BVP) 파형을 출력하고, 이를 통해 표준 피크 검출 방법으로 심박수를 추정합니다.

결과 및 발견

데이터셋학습테스트MAE (bpm)Pearson r
UBFC‑rPPG (intra‑dataset)UBFC‑rPPGUBFC‑rPPG1.0550.996
SCAMPS → UBFC‑rPPG (cross‑domain)SCAMPS (synthetic)UBFC‑rPPG (real)1.5820.994
  • 파라미터 효율성: 63 k 파라미터 vs. 많은 attention‑기반 rPPG 네트워크에서 >1 M.
  • 속도: FFT‑기반 믹싱은 중급 모바일 GPU(예: Snapdragon 8 Gen 2)에서 약 30 fps로 실행되어 실시간 제약을 충분히 만족합니다.
  • 소거 실험: 게이팅 메커니즘을 제거하면 교차 도메인 MAE가 약 0.4 bpm 감소하여 도메인 이동에 대한 적응에 중요함을 확인했습니다.
  • 견고성: Toeplitz 연산자의 전체 시퀀스 수용 영역 덕분에 비디오 길이가 변해도 모델은 높은 상관성을 유지합니다.

실용적 함의

  • Edge deployment – 100 k 이하 파라미터 규모와 FFT 친화적 연산 덕분에 ToTMNet은 스마트폰, 웨어러블, 임베디드 카메라에서 클라우드로 오프로드하지 않고 실행할 수 있습니다.
  • Real‑time health apps – 개발자는 비디오 채팅, 피트니스, 원격 의료 플랫폼에 심박수 모니터링을 삽입하여 별도 하드웨어 없이 즉시 바이탈 정보를 제공할 수 있습니다.
  • Low‑power IoT – 선형 시간 복잡도는 CPU/GPU 사용량 감소로 이어져 지속적인 모니터링 장치의 배터리 수명을 연장합니다.
  • Domain‑agnostic training – 게이팅이 강화된 Toeplitz 믹서는 합성‑실제 전이에도 강인하여, 대규모 저비용 합성 데이터셋으로 사전 학습한 뒤 실제 사용자 영상에서도 높은 정확도를 달성할 수 있습니다.
  • Plug‑and‑play component – Toeplitz 믹싱 레이어는 장기 시간 의존성이 중요하지만 자원이 제한된 다른 비디오 시퀀스 모델(예: 행동 인식, 비디오 캡셔닝)의 어텐션 모듈을 대체할 수 있습니다.

제한 사항 및 향후 작업

  • 데이터셋 범위 – 평가는 두 개의 데이터셋(하나는 실제, 하나는 합성)으로 제한됩니다. 다양한 조명, 움직임, 피부톤에 대한 폭넓은 테스트가 일반화 확인을 위해 필요합니다.
  • 고정 클립 길이 – 현재 구현은 Toeplitz 커널에 대해 미리 정해진 시퀀스 길이를 가정합니다; 가변 길이 스트림을 보다 유연하게 처리하면 유연성을 향상시킬 수 있습니다.
  • 하드웨어‑특정 FFT 오버헤드 – FFT는 GPU에서 빠르지만 일부 마이크로컨트롤러에서는 오버헤드가 이점을 초과할 수 있습니다; 대안적인 빠른 컨볼루션 방식을 탐색하면 적용 범위를 넓힐 수 있습니다.
  • 확장된 바이탈 – 향후 작업에서는 동일한 비디오 스트림으로 호흡률, 혈중 산소 포화도, 스트레스 지표 등을 추정하도록 아키텍처를 확장할 수 있습니다.

핵심 요약: ToTMNet은 수학적으로 우아한 Toeplitz 기반 시간 믹서가 FFT로 가속되어 무거운 어텐션을 대체하면서도 자원 제한 장치에서 고정밀 rPPG를 제공할 수 있음을 보여줍니다—이는 차세대 비접촉 건강 모니터링 솔루션을 구축하는 개발자들에게 흥미로운 발전입니다.

저자

  • Vladimir Frants
  • Sos Agaian
  • Karen Panetta

Paper Information

  • arXiv ID: 2601.04159v1
  • Categories: cs.CV
  • Published: 2026년 1월 7일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »