[Paper] 경량 클라이언트, 전체 정확도: Hybrid Zeroth- and First-Order Split Federated Learning
Source: arXiv - 2601.09076v1
개요
이 논문은 Split Federated Learning (SFL)에서 오랫동안 존재해 온 병목 현상인, 엣지 디바이스가 역전파 과정에서 감당해야 하는 무거운 메모리와 연산 부하를 해결한다. 저자들은 HERON‑SFL이라는 하이브리드 학습 방식을 제안한다. 이 방식은 클라이언트 측의 gradient‑based (1차) 업데이트를 저비용 제로‑차수(Zero‑Order, ZO) 근사로 교체하고, 서버 측 업데이트는 1차 방식 그대로 유지한다. 그 결과, 최신 딥넷을 메모리와 연산량이 제한된 얇은 디바이스에서도 모델 정확도를 희생하지 않고 학습할 수 있는 시스템을 제공한다.
주요 기여
- Hybrid Optimization Framework – 클라이언트에서는 제로‑차(zeroth‑order) 업데이트를, 서버에서는 일차(첫 번째 차) 업데이트를 결합하여 전체 학습 충실도를 유지합니다.
- Auxiliary Network‑Assisted ZO Updates – 가벼운 “assistant” 네트워크를 사용해 교란된 forward pass를 생성함으로써, 활성화 캐싱을 피하면서 gradient‑free 업데이트를 가능하게 합니다.
- Theoretical Guarantees – 저효율‑랭크 가정 하에 모델 차원에 독립적인 수렴 속도를 증명하여, ZO 방법에서 흔히 발생하는 차원의 저주를 회피합니다.
- Empirical Validation – ResNet 이미지 분류와 언어‑모델 파인‑튜닝 실험을 통해 HERON‑SFL이 벤치마크 정확도를 달성하면서 클라이언트 피크 메모리를 최대 64 % 감소시키고, 단계당 연산량을 최대 33 % 줄임을 보여줍니다.
- Scalability Blueprint – 이 접근법이 기존에 엣지 디바이스에서 다루기 어려웠던 모델(예: 더 큰 CNN, 트랜스포머 기반 LMs)까지 SFL을 확장할 수 있는 방법을 제시합니다.
Methodology
-
Split Architecture – 모델은 클라이언트‑사이드 프런트‑엔드와 서버‑사이드 백‑엔드로 나뉩니다. 클라이언트는 원시 데이터를 처리하고 중간 활성화(“컷‑레이어” 출력)를 서버에 전달한 뒤, 손실 계산을 위해 서버의 응답을 받습니다.
-
Zeroth‑Order Client Update
- 클라이언트 네트워크를 역전파하는 대신, 각 클라이언트는 작은 집합의 무작위 섭동 $\delta$ 를 샘플링하고 $\mathbf{x} + \delta$ 로 전방만 수행해 손실을 평가합니다.
- 유한 차분 추정기(예: 두 점 차분 또는 가우시안 스무딩)를 사용해, 클라이언트는 활성화를 전혀 저장하지 않고도 매개변수에 대한 근사 그래디언트를 구축합니다.
- 메인 클라이언트 모델보다 훨씬 작은 보조 네트워크가 섭동을 생성하고 ZO 스텝을 저비용으로 계산할 수 있게 합니다.
-
First‑Order Server Update
- 서버는 중간 활성화를 받아 자체(더 큰) 백‑엔드에 대한 실제 그래디언트를 계산하고 표준 SGD/Adam 스텝을 수행합니다.
- 서버‑사이드 업데이트는 클라이언트에게 다시 전달되어 하나의 전역 반복을 완성합니다.
-
Hybrid Loop – 학습 루프는 교대로 진행됩니다: 클라이언트는 로컬에서 저비용 ZO 스텝을 수행하고, 서버는 이를 집계하여 FO 업데이트를 적용합니다. 이 과정은 수렴할 때까지 반복됩니다.
손실에 대한 클라이언트 매개변수의 야코비안이 저차원 부분공간에 존재한다는 low‑effective‑rank 가정 덕분에 저자들은 ZO 추정기의 분산을 상한으로 잡을 수 있었으며, 이는 파라미터 수에 따라 발산하지 않는 수렴 속도를 제공합니다.
Results & Findings
| Task | Model | 베이스라인 (FO‑SFL) | HERON‑SFL | 메모리 감소 | 연산 감소 |
|---|---|---|---|---|---|
| 이미지 분류 (CIFAR‑10) | ResNet‑18 | 93.2 % acc | 93.0 % acc | ↓ 64 % | ↓ 33 % |
| LM 파인튜닝 (GPT‑2 small) | GPT‑2‑124M | 84.5 % ppl | 84.3 % ppl | ↓ 58 % | ↓ 30 % |
- 정확도 동등성 – 모든 벤치마크에서 HERON‑SFL은 전체 1차 순서 베이스라인보다 0.2 % 이내에 머무릅니다.
- 메모리 사용량 – 역전파를 위해 활성화 맵을 저장할 필요가 없으므로 클라이언트의 최대 메모리 사용량이 크게 감소합니다.
- 연산 절감 – 각 클라이언트 단계는 순전파만 필요하고(저비용 교란 생성 포함) 반복당 FLOPs를 줄입니다.
- 확장성 테스트 – Raspberry Pi급 장치에서 ResNet‑50(≈25 M 파라미터) 학습이 가능해지는 반면, 기존 SFL은 메모리 초과(OOM)로 크래시됩니다.
소거 연구에 따르면 보조 네트워크 크기와 ZO 샘플 수가 오버헤드와 추정기 분산 사이의 trade‑off를 형성합니다.
실용적 시사점
- Edge‑AI 배포 – 기업은 이제 모델 아키텍처를 재설계하지 않고도 더 정교한 모델(예: 비전 트랜스포머, 중간 규모 언어 모델)을 IoT 디바이스, 웨어러블, 스마트폰에 배포할 수 있습니다.
- 대역폭 비용 감소 – 역전파 메시지가 줄어들어 업링크 트래픽이 감소하고, 이는 셀룰러 또는 위성 연결 디바이스에 매우 중요합니다.
- 에너지 효율성 – 순방향 전용 연산은 전력 소모를 줄여 배터리 수명을 연장하며, 디바이스 내 학습 시나리오(개인화, 지속 학습)에 유리합니다.
- 간소화된 SDK – 개발자는 기존 연합 학습 프레임워크(TensorFlow Federated, PySyft)에 HERON‑SFL을 최소한의 변경으로 통합할 수 있습니다: 클라이언트 옵티마이저를 ZO 래퍼로 교체하면 됩니다.
- 규제 및 프라이버시 혜택 – 더 많은 연산을 디바이스 내에서 수행하고 그래디언트 유출을 제한함으로써, 이 접근 방식은 프라이버시‑바이‑디자인 요구사항(GDPR, HIPAA)과 잘 부합합니다.
Limitations & Future Work
- Zeroth‑Order Variance – 낮은 차원 가정이 이를 완화시키긴 하지만, ZO 추정기는 여전히 추가적인 확률성을 도입하여 고도로 비볼록한 작업에서 수렴 속도에 영향을 줄 수 있습니다.
- Auxiliary Network Overhead – 보조 네트워크가 파라미터와 추론 비용을 증가시키며, 다양한 하드웨어에 최적의 크기를 찾는 것이 아직 해결되지 않은 엔지니어링 문제입니다.
- Server Load – 서버는 백엔드에 대해 여전히 전체 역전파를 수행하므로, 대규모 배포 시 병목 현상이 될 수 있습니다.
- Theoretical Scope – 수렴 증명은 부드러운 손실 함수와 유계 교란을 전제로 하며, 비부드러운 목표(예: 양자화 모델)로 확장하는 것이 향후 과제입니다.
- Broader Benchmarks – 실험은 이미지 분류와 언어 모델 파인튜닝에 집중했으며, HERON‑SFL을 강화학습, 그래프 신경망, 멀티모달 모델 등에 적용해 평가하면 일반성을 더욱 강화할 수 있습니다.
저자
- Zhoubin Kou
- Zihan Chen
- Jing Yang
- Cong Shen
논문 정보
- arXiv ID: 2601.09076v1
- 분류: cs.LG, cs.DC, cs.IT, cs.NI, eess.SP
- 출판일: 2026년 1월 14일
- PDF: PDF 다운로드