[Paper] 경량 클라이언트, 전체 정확도: Hybrid Zeroth- and First-Order Split Federated Learning

발행: 3주 전 (2026년 1월 14일 오전 11:17 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2601.09076v1

개요

이 논문은 Split Federated Learning (SFL)에서 오랫동안 존재해 온 병목 현상인, 엣지 디바이스가 역전파 과정에서 감당해야 하는 무거운 메모리와 연산 부하를 해결한다. 저자들은 HERON‑SFL이라는 하이브리드 학습 방식을 제안한다. 이 방식은 클라이언트 측의 gradient‑based (1차) 업데이트를 저비용 제로‑차수(Zero‑Order, ZO) 근사로 교체하고, 서버 측 업데이트는 1차 방식 그대로 유지한다. 그 결과, 최신 딥넷을 메모리와 연산량이 제한된 얇은 디바이스에서도 모델 정확도를 희생하지 않고 학습할 수 있는 시스템을 제공한다.

주요 기여

Hybrid Optimization Framework – 클라이언트에서는 제로‑차(zeroth‑order) 업데이트를, 서버에서는 일차(첫 번째 차) 업데이트를 결합하여 전체 학습 충실도를 유지합니다.
Auxiliary Network‑Assisted ZO Updates – 가벼운 “assistant” 네트워크를 사용해 교란된 forward pass를 생성함으로써, 활성화 캐싱을 피하면서 gradient‑free 업데이트를 가능하게 합니다.
Theoretical Guarantees – 저효율‑랭크 가정 하에 모델 차원에 독립적인 수렴 속도를 증명하여, ZO 방법에서 흔히 발생하는 차원의 저주를 회피합니다.
Empirical Validation – ResNet 이미지 분류와 언어‑모델 파인‑튜닝 실험을 통해 HERON‑SFL이 벤치마크 정확도를 달성하면서 클라이언트 피크 메모리를 최대 64 % 감소시키고, 단계당 연산량을 최대 33 % 줄임을 보여줍니다.
Scalability Blueprint – 이 접근법이 기존에 엣지 디바이스에서 다루기 어려웠던 모델(예: 더 큰 CNN, 트랜스포머 기반 LMs)까지 SFL을 확장할 수 있는 방법을 제시합니다.

Methodology

Split Architecture – 모델은 클라이언트‑사이드 프런트‑엔드와 서버‑사이드 백‑엔드로 나뉩니다. 클라이언트는 원시 데이터를 처리하고 중간 활성화(“컷‑레이어” 출력)를 서버에 전달한 뒤, 손실 계산을 위해 서버의 응답을 받습니다.
Zeroth‑Order Client Update
- 클라이언트 네트워크를 역전파하는 대신, 각 클라이언트는 작은 집합의 무작위 섭동 $\delta$ 를 샘플링하고 $\mathbf{x} + \delta$ 로 전방만 수행해 손실을 평가합니다.
- 유한 차분 추정기(예: 두 점 차분 또는 가우시안 스무딩)를 사용해, 클라이언트는 활성화를 전혀 저장하지 않고도 매개변수에 대한 근사 그래디언트를 구축합니다.
- 메인 클라이언트 모델보다 훨씬 작은 보조 네트워크가 섭동을 생성하고 ZO 스텝을 저비용으로 계산할 수 있게 합니다.
First‑Order Server Update
- 서버는 중간 활성화를 받아 자체(더 큰) 백‑엔드에 대한 실제 그래디언트를 계산하고 표준 SGD/Adam 스텝을 수행합니다.
- 서버‑사이드 업데이트는 클라이언트에게 다시 전달되어 하나의 전역 반복을 완성합니다.
Hybrid Loop – 학습 루프는 교대로 진행됩니다: 클라이언트는 로컬에서 저비용 ZO 스텝을 수행하고, 서버는 이를 집계하여 FO 업데이트를 적용합니다. 이 과정은 수렴할 때까지 반복됩니다.

손실에 대한 클라이언트 매개변수의 야코비안이 저차원 부분공간에 존재한다는 low‑effective‑rank 가정 덕분에 저자들은 ZO 추정기의 분산을 상한으로 잡을 수 있었으며, 이는 파라미터 수에 따라 발산하지 않는 수렴 속도를 제공합니다.

Results & Findings

Task	Model	베이스라인 (FO‑SFL)	HERON‑SFL	메모리 감소	연산 감소
이미지 분류 (CIFAR‑10)	ResNet‑18	93.2 % acc	93.0 % acc	↓ 64 %	↓ 33 %
LM 파인튜닝 (GPT‑2 small)	GPT‑2‑124M	84.5 % ppl	84.3 % ppl	↓ 58 %	↓ 30 %

정확도 동등성 – 모든 벤치마크에서 HERON‑SFL은 전체 1차 순서 베이스라인보다 0.2 % 이내에 머무릅니다.
메모리 사용량 – 역전파를 위해 활성화 맵을 저장할 필요가 없으므로 클라이언트의 최대 메모리 사용량이 크게 감소합니다.
연산 절감 – 각 클라이언트 단계는 순전파만 필요하고(저비용 교란 생성 포함) 반복당 FLOPs를 줄입니다.
확장성 테스트 – Raspberry Pi급 장치에서 ResNet‑50(≈25 M 파라미터) 학습이 가능해지는 반면, 기존 SFL은 메모리 초과(OOM)로 크래시됩니다.

소거 연구에 따르면 보조 네트워크 크기와 ZO 샘플 수가 오버헤드와 추정기 분산 사이의 trade‑off를 형성합니다.

실용적 시사점

Edge‑AI 배포 – 기업은 이제 모델 아키텍처를 재설계하지 않고도 더 정교한 모델(예: 비전 트랜스포머, 중간 규모 언어 모델)을 IoT 디바이스, 웨어러블, 스마트폰에 배포할 수 있습니다.
대역폭 비용 감소 – 역전파 메시지가 줄어들어 업링크 트래픽이 감소하고, 이는 셀룰러 또는 위성 연결 디바이스에 매우 중요합니다.
에너지 효율성 – 순방향 전용 연산은 전력 소모를 줄여 배터리 수명을 연장하며, 디바이스 내 학습 시나리오(개인화, 지속 학습)에 유리합니다.
간소화된 SDK – 개발자는 기존 연합 학습 프레임워크(TensorFlow Federated, PySyft)에 HERON‑SFL을 최소한의 변경으로 통합할 수 있습니다: 클라이언트 옵티마이저를 ZO 래퍼로 교체하면 됩니다.
규제 및 프라이버시 혜택 – 더 많은 연산을 디바이스 내에서 수행하고 그래디언트 유출을 제한함으로써, 이 접근 방식은 프라이버시‑바이‑디자인 요구사항(GDPR, HIPAA)과 잘 부합합니다.

Limitations & Future Work

Zeroth‑Order Variance – 낮은 차원 가정이 이를 완화시키긴 하지만, ZO 추정기는 여전히 추가적인 확률성을 도입하여 고도로 비볼록한 작업에서 수렴 속도에 영향을 줄 수 있습니다.
Auxiliary Network Overhead – 보조 네트워크가 파라미터와 추론 비용을 증가시키며, 다양한 하드웨어에 최적의 크기를 찾는 것이 아직 해결되지 않은 엔지니어링 문제입니다.
Server Load – 서버는 백엔드에 대해 여전히 전체 역전파를 수행하므로, 대규모 배포 시 병목 현상이 될 수 있습니다.
Theoretical Scope – 수렴 증명은 부드러운 손실 함수와 유계 교란을 전제로 하며, 비부드러운 목표(예: 양자화 모델)로 확장하는 것이 향후 과제입니다.
Broader Benchmarks – 실험은 이미지 분류와 언어 모델 파인튜닝에 집중했으며, HERON‑SFL을 강화학습, 그래프 신경망, 멀티모달 모델 등에 적용해 평가하면 일반성을 더욱 강화할 수 있습니다.

저자

Zhoubin Kou
Zihan Chen
Jing Yang
Cong Shen

논문 정보

arXiv ID: 2601.09076v1
분류: cs.LG, cs.DC, cs.IT, cs.NI, eess.SP
출판일: 2026년 1월 14일
PDF: PDF 다운로드

[Paper] 경량 클라이언트, 전체 정확도: Hybrid Zeroth- and First-Order Split Federated Learning

개요

주요 기여

Methodology

Results & Findings

실용적 시사점

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 설명은 대규모 추론 모델에 걸쳐 일반화될까?

[Paper] Gemini용 프로덕션 준비 프로브 구축

[Paper] ShapeR: 일상적인 캡처에서 강인한 조건부 3D 형태 생성

[Paper] MetaboNet: 제1형 당뇨병 관리를 위한 가장 큰 공개 통합 데이터셋