[Paper] Merge and Bound: 클래스 증분 학습을 위한 가중치 직접 조작
Source: arXiv - 2511.21490v1
Overview
이 논문은 Merge‑and‑Bound (M & B) 라는 새로운 학습 레시피를 소개한다. 이는 손실 함수나 네트워크 구조를 조정하는 대신 모델의 가중치 자체에 직접 작용한다. 가중치 업데이트를 신중히 병합하고 제한함으로써, 기존 CIL 파이프라인과 호환되면서도 재앙적 망각을 크게 감소시킨다.
Key Contributions
- Weight‑space merging: 두 가지 새로운 병합 연산 – inter‑task (이전 학습된 모든 작업에 걸쳐 평균)와 intra‑task (현재 작업 내 여러 체크포인트를 결합) – 을 통해 구조적 변형 없이 모델을 재구성한다.
- Bounded update rule: 새로운 모델이 병합된 “참조” 가중치에 가깝게 머물도록 하는 원칙적인 제약으로, 누적 드리프트를 최소화하고 이전 지식을 보존한다.
- Plug‑and‑play design: M & B는 손실, 리플레이 버퍼, 네트워크 헤드 등을 변경하지 않고 iCaRL, LUCIR, PODNet 등 어떤 CIL 방법에도 바로 적용할 수 있다.
- State‑of‑the‑art results: CIFAR‑100, ImageNet‑Subset, TinyImageNet에서 최신 CIL 베이스라인을 일관되게 능가하며, 종종 2–5 % 절대 정확도 향상을 보인다.
- Comprehensive analysis: 각 병합 구성 요소의 영향을 분리하는 Ablation 연구와 다양한 리플레이 크기 및 작업 순서에 대한 강인성을 입증한다.
Methodology
-
Inter‑task weight merging – 작업 t‑1을 마친 뒤 알고리즘은 모델 파라미터를 저장한다. 작업 t가 시작될 때, 저장된 모든 체크포인트(현재 체크포인트 포함)의 단순 평균을 계산한다. 이 “전역” 가중치 벡터는 지금까지 네트워크가 학습한 내용을 구현하는 knowledge anchor 역할을 한다.
-
Intra‑task weight merging – 작업 t를 학습하는 동안 여러 중간 스냅샷(예: 각 epoch 후)을 수집한다. 이 스냅샷들을 다시 평균하여 task‑specific 표현을 만든다. 이는 잡음이 섞인 업데이트를 부드럽게 만든다.
-
Bounded update – 실제 최적화 단계는 업데이트된 가중치와 병합된 앵커 사이의 거리를 제한하는 2차 패널티에 의해 제약된다. 구체적으로 손실은 다음과 같이 정의된다:
[ \mathcal{L}{\text{total}} = \mathcal{L}{\text{CIL}} + \lambda | \theta - \theta_{\text{merged}} |_2^2, ]
여기서 (\theta)는 현재 파라미터, (\theta_{\text{merged}})는 두 병합의 결과이며, 하이퍼파라미터 (\lambda)는 “제한”의 강도를 조절한다.
-
Integration – 추가 항이 가중치 벡터에 대한 정규화 항일 뿐이므로, 기존 CIL 손실(교차 엔트로피, 증류, 대조 학습 등)에 언제든지 더할 수 있다. 모델 구조나 리플레이 버퍼를 건드릴 필요가 없다.
Results & Findings
| 데이터셋 | 베이스라인 (예: LUCIR) | LUCIR + M & B | 향상 |
|---|---|---|---|
| CIFAR‑100 (20 tasks) | 63.2 % | 68.1 % | +4.9 % |
| ImageNet‑Subset (10 tasks) | 71.5 % | 74.8 % | +3.3 % |
| TinyImageNet (10 tasks) | 55.0 % | 58.9 % | +3.9 % |
- 망각 감소: 모든 작업을 학습한 후 첫 번째 작업의 정확도 감소가 ~30 %에서 ~18 %로 줄어들었다(M & B 적용 시).
- 리플레이 크기와 무관한 안정성: 아주 작은 리플레이 버퍼(데이터셋의 1 %)에서도 M & B는 3 % 이상의 향상을 제공, 가중치 정규화가 대규모 예시에 의존하지 않음을 보여준다.
- Ablation: intra‑task 병합을 제거하면 약 1.2 % 감소, bounded 항을 제거하면 약 2.5 % 감소가 발생해 두 구성 요소가 모두 필수적임을 확인한다.
전체적으로, 병합된 가중치 표현에 “가깝게” 머무르는 것이 오래된 지식을 유지하는 효과적이고 비용이 적은 방법임을 실험을 통해 입증한다.
Practical Implications
- 쉬운 도입: 개발자는 체크포인트 저장, 평균 계산, 정규화 항 추가 정도의 몇 줄 코드만 기존 CIL 프레임워크에 삽입하면 된다. 새로운 레이어, 메모리 집약적 리허설, 혹은 맞춤형 옵티마이저가 필요 없다.
- 컴퓨팅·메모리 비용 절감: 파라미터 벡터 자체에 작용하므로 비용이 많이 드는 생성적 리플레이나 대규모 예시 버퍼를 피할 수 있어 엣지 디바이스나 온‑디바이스 지속 학습에 매력적이다.
- 작업 순서에 대한 강인성: 병합 전략은 작업이 제시되는 순서에 무관하므로, 제품 카탈로그의 점진적 추가, 센서 모달리티의 진화 등 예측 불가능한 데이터 흐름이 있는 실제 파이프라인에 유용하다.
- CIL 외 가능성: bounded‑update 아이디어는 도메인 적응, 연합 학습, 혹은 “핵심” 표현을 보존해야 하는 대형 언어 모델 파인튜닝 등 다른 지속 학습 시나리오에도 재활용될 수 있다.
Limitations & Future Work
- 병합 단순성: 현재는 단순 평균을 사용하므로, 작업 난이도나 신뢰도에 기반한 가중 평균 등 더 정교한 병합 방법이 추가 성능을 가져올 수 있다.
- 초대형 모델에 대한 확장성: 수백만 파라미터를 가진 모델에서는 모든 작업에 대한 전체 체크포인트를 저장하는 것이 메모리 부담이 될 수 있다. 저‑랭크 혹은 스케치 기반 표현을 탐색할 필요가 있다.
- 이론적 보장: 경험적 결과는 강력하지만, bounded 업데이트가 망각을 완화하는 메커니즘에 대한 형식적 분석은 향후 연구 과제로 남는다.
- 비분류 작업으로의 확장: 본 논문은 이미지 분류에 초점을 맞추었으며, 탐지, 세그멘테이션, 멀티모달 작업에 M & B를 적용하는 연구는 아직 진행되지 않았다.
Authors
- Taehoon Kim
- Donghwan Jang
- Bohyung Han
Paper Information
- arXiv ID: 2511.21490v1
- Categories: cs.CV, cs.AI, cs.LG
- Published: November 26, 2025
- PDF: Download PDF