[Paper] Rashomon Sets와 Federated Learning에서의 모델 다중성

발행: 3일 전 (2026년 2월 10일 오후 05:25 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.09520v1

개요

논문 “Rashomon Sets and Model Multiplicity in Federated Learning” 은 Rashomon 집합—거의 최적에 가까운 모델들의 집합으로, 행동이 크게 다를 수 있는—이라는 개념을 연합 학습(Federated Learning, FL) 환경으로 확장합니다. 분산된 클라이언트들 사이에서 여러 좋은 모델을 어떻게 논리화할 수 있는지를 형식화함으로써, 저자들은 단일 “최고” 모델이 숨겨진 편향이나 불안정을 감출 수 있는 상황에서 보다 투명하고 공정하며 견고한 FL 배포를 위한 길을 열었습니다.

주요 기여

Formal FL‑specific Rashomon definitions:
1. Global Rashomon set – 모든 클라이언트에서 집계된 통계에 기반함.
2. t‑agreement Rashomon set – 최소 t 비율의 클라이언트에 대해 성립하는 로컬 Rashomon 집합들의 교집합.
3. Individual Rashomon sets – 각 클라이언트 고유의 근접 최적 모델 군.
Privacy‑preserving multiplicity metrics: 원시 클라이언트 데이터를 노출하지 않고 고전적인 Rashomon‑set 크기와 다양성 측정값을 추정하는 방법을 제시.
Multiplicity‑aware FL pipeline: 새로운 측정값을 학습 루프에 통합하여 서버가 단일 전역 최적 모델이 아닌 여러 후보 모델을 제공할 수 있게 함.
Empirical validation: 표준 FL 벤치마크(예: FEMNIST, Shakespeare, CIFAR‑10)에서 실험을 수행해 세 가지 Rashomon 개념이 정확도, 공정성, 클라이언트별 성능에서 서로 다른 트레이드오프를 드러냄.

방법론

Rashomon 정의 확장 – 저자들은 고전적인 Rashomon 집합(경험적 위험이 최적값보다 허용 오차 ε 이내인 모든 모델)에서 시작하여, 연합 학습(FL)에서 위험을 클라이언트별 손실의 가중합으로 재해석한다.
세 가지 관점 –
- 글로벌: 서버가 보는 데이터 분포(보안 집계를 통해)를 이용해 집계 손실을 계산한다.
- t‑동의: 각 클라이언트에 대해 로컬 Rashomon 집합을 계산한 뒤, 참여자 수 N 중 최소 t·N 클라이언트를 만족하는 집합들을 교집합한다.
- 개별: 각 클라이언트가 자신의 Rashomon 집합을 로컬에 보관한다.
프라이버시 제약 하에서 다중성 추정 – 논문은 차등 프라이버시 친화적인 통계(예: 모델 예측에 대한 잡음이 섞인 히스토그램, 손실 경계의 보안 다자간 계산)를 활용해 원시 샘플을 공유하지 않고도 집합 크기와 경계 다양성을 근사한다.
파이프라인 통합 – 각 FL 라운드에서 서버는 다중성 메트릭을 수집하고, 단일 모델을 계속 사용할지 혹은 포트폴리오 형태의 여러 모델을 브로드캐스트할지 결정한다. 또한 클라이언트가 로컬 검증 세트와 가장 잘 맞는 모델을 선택하도록 옵션을 제공한다.

결과 및 발견

데이터셋	측정항목	전역 라쇼몽 크기 ↑	t‑동의 (t=0.7) 크기 ↑	개별 분산 ↓
FEMNIST (handwritten digits)	최고 모델 대비 정확도 감소	< 0.5 %	< 0.8 %	0.3 %
Shakespeare (next‑character)	클라이언트별 퍼플렉시티 분산	1.2 %	2.5 %	0.9 %
CIFAR‑10 (image)	공정성 (클라이언트 간 차등 프라이버시)	0.04	0.07	0.03

모델 다양성은 상당합니다: 모든 모델이 전역 최적값의 1 % 이내에 있더라도, 결정 경계가 충분히 달라져 클라이언트 간 측정 가능한 공정성 격차를 초래합니다.
t‑동의 집합은 합의를 포착합니다: t 값을 높이면 집합이 축소되어 다수에게 잘 작동하는 모델을 강조하고, 틈새 클라이언트 데이터에 과적합될 수 있는 이상치를 배제합니다.
개별 라쇼몽 집합은 로컬 유용성을 향상시킵니다: 각 클라이언트가 자체 집합에서 선택하도록 하면 전역 모델 성능을 해치지 않으면서 로컬 정확도가 최대 2 % 향상됩니다.

실용적 함의

공정한 FL 서비스: 기업은 단일 모델 대신 모델 포트폴리오를 제공할 수 있으며, 이를 통해 엣지 디바이스나 지역 서버가 현지 인구통계나 사용 패턴을 가장 잘 반영하는 변형을 선택할 수 있습니다.
분포 변동에 대한 견고성: Rashomon 집합 크기를 모니터링함으로써 엔지니어는 연합 데이터가 지나치게 이질적이 될 때를 감지하고, 클라이언트 참여 재조정이나 적응형 가중치를 적용하도록 할 수 있습니다.
프라이버시 보호 감사: 다중성 메트릭은 새로운 감사 추적(예: “동등하게 좋은 모델이 몇 개 존재하는가?”)을 제공하며, 암호화된 집계에서 계산할 수 있어 원시 데이터를 유출하지 않고 규제 요구를 충족합니다.
툴링 통합: 제안된 파이프라인은 인기 있는 FL 프레임워크(TensorFlow Federated, PySyft, Flower) 주변에 최소한의 코드 변경으로 감쌀 수 있으며—주로 손실 경계에 대한 안전한 집계 단계와 클라이언트 측 선택 루틴을 추가하는 정도입니다.

제한 사항 및 향후 연구

집합 추정의 확장성: 보안 집계를 통해 Rashomon 집합 크기를 근사하면 추가 통신 오버헤드가 발생하며, 이는 매우 많은 클라이언트 수에서는 부담이 될 수 있습니다.
ε와 t의 선택: 허용 오차 ε(최적에 얼마나 가까운지)와 동의 임계값 t는 현재 수동으로 조정해야 하는 하이퍼파라미터이며, 자동 선택 전략은 아직 해결되지 않은 문제입니다.
제한된 벤치마크 다양성: 실험은 이미지 및 텍스트 분류에 초점을 맞추고 있으며, 추천 시스템, 시계열 예측, 강화학습 에이전트 등으로 분석을 확장하는 것은 향후 과제입니다.
동적 클라이언트 참여: 현재 이론은 각 학습 라운드마다 고정된 클라이언트 집합을 가정하고 있으며, 이탈 및 간헐적 연결을 처리하면서 Rashomon 집합 보장을 유지하는 문제는 이후 연구로 남겨져 있습니다.

저자

Xenia Heilmann
Luca Corbucci
Mattia Cerrato

논문 정보

arXiv ID: 2602.09520v1
카테고리: cs.LG, cs.DC
발행일: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] Rashomon Sets와 Federated Learning에서의 모델 다중성

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Scaling Verification이 Vision-Language-Action Alignment을 위해 Scaling Policy Learning보다 더 효과적일 수 있다

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] 시계열 데이터에 대한 Flow-Guided Neural Operator 기반 Self‑Supervised Learning