[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

발행: 5일 전 (2026년 6월 6일 AM 02:53 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.07500v1

개요

대형 언어 모델(LLM)의 지속 학습은 플라스티시티‑안정성 딜레마에 의해 방해받습니다. 새로운 능력을 습득하면 이전 지식이 크게 망각되는 현상이 발생합니다. 기존 방법들은 파라미터를 균일하게 취급해 특정 작업 지식과 공유 능력을 구분하지 못합니다. 우리는 Mixture of Sparse Experts for Task Agnostic Continual Learning (SETA) 라는 프레임워크를 제안합니다. SETA는 작업별 전문가 모듈로 구성된 적응형 희소 서브스페이스 분해를 통해 플라스티시티‑안정성 충돌을 해결합니다. 일반적인 업데이트에서는 여러 작업이 동일한 파라미터를 놓고 경쟁하지만, SETA는 지식을 고유 전문가(작업별 패턴을 격리)와 공유 전문가(공통 특징을 포착)로 구분합니다. 이 구조는 적응형 탄성 고정(adaptive elastic anchoring)과 라우팅 인식 정규화(routing‑aware regularization)로 유지되며, 가중치와 라우팅 수준 모두에서 공유 지식을 보호하고, 추론 시 통합 게이팅 네트워크가 올바른 전문가 조합을 자동으로 불러오도록 합니다. 다양한 도메인‑특화 벤치마크에 대한 광범위한 실험 결과, SETA는 최신 지속 학습 베이스라인과 비교해 전반적인 성능이 경쟁력 있거나 우수함을 보여줍니다. 특히 초기 작업 지식 보존이 강하고, LLaMA‑2 7B와 Qwen3‑4B에서 역전이(backward transfer)도 향상되었습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다.

cs.LG
cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Fatema Siddika
Md Anwar Hossen
Tanwi Mallick
Ali Jannesari

논문 정보

arXiv ID: 2606.07500v1
분류: cs.LG, cs.AI
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법

[논문] 머신러닝에서의 2차 경로 커널 보간 공식