[논문] GRASP: 파라미터 효율적인 파인튜닝 및 견고한 추론을 위한 Grouped Activation Shared Parameterization of Transformers

발행: (2025년 12월 4일 오전 07:17 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.04296v1

Overview

이 논문은 대형 트랜스포머 모델을 위한 새로운 파라미터 효율적인 파인튜닝(PEFT) 기법인 GRASP(Grouped Activation Shared Parameterization)를 소개한다. 토큰 활성화를 그룹으로 묶고 각 그룹마다 아주 작은 공유 스케일/시프트 파라미터 집합을 학습함으로써, GRASP는 학습 가능한 가중치 수를 크게 줄이면서도 작업‑특화된 미세 차이를 포착한다. 확률적 확장인 StochGRASP는 가중치 불확실성을 모델링해 파인튜닝된 모델이 하드웨어 수준 잡음에 더 강인하도록 만든다—이는 엣지 AI 배포에 매력적인 특성이다.

Key Contributions

  • Grouped modulation: 각 토큰 표현을 K ≪ D 그룹으로 나누고, 그룹당 공유 스케일‑시프트 벡터를 학습하여 학습 가능한 파라미터를 급격히 감소시킨다.
  • StochGRASP: 공유 파라미터에 가우시안 교란을 추가하고 잡음‑인식 손실을 도입해 추론 시 가중치 잡음에 대한 강인성을 제공한다.
  • Parameter efficiency: LoRA·BitFit 등 기존 PEFT 방법에 비해 10배 적은 학습 가능한 파라미터를 달성한다.
  • Competitive performance: GLUE(RoBERTa‑base/large)와 E2E NLG(GPT‑2 Medium)에서 최첨단 PEFT 결과와 동등하거나 능가한다.
  • Robustness to hardware variability: 시뮬레이션된 추론 잡음 하에서도 일관된 정확도 향상을 보여, StochGRASP가 저전력 AI 칩에 적합함을 입증한다.

Methodology

  1. Activation grouping – 선택된 트랜스포머 레이어에서 각 토큰의 D 차원 은닉 벡터를 K 개의 연속된 그룹으로 분할한다(예: D = 768, K = 8 → 그룹당 크기 96).

  2. Shared scaling & shifting – 각 그룹은 하나의 학습 가능한 스케일 벡터 γₖ와 시프트 벡터 βₖ를 갖는다. 파인튜닝 동안 원래 은닉 벡터 h는 다음과 같이 변환된다:

    [ \tilde{h}{i,,g} = \gamma_g \odot h{i,,g} + \beta_g ]

    여기서 g는 그룹 인덱스, i는 토큰 인덱스이다.

  3. Parameter count – 전체 가중치 행렬(수백만 파라미터)을 업데이트하는 대신, 2 × K × (D/K) 벡터만 학습함으로써 한 차례 정도의 규모 감소를 달성한다.

  4. StochGRASP – 결정적 γ, β를 가우시안 분포(평균 + σ·ε)로 교체한다. 손실 함수는 기대 잡음을 포함해 모델이 무작위 교란에 대해 안정적인 파라미터를 학습하도록 유도한다.

  5. Training – 표준 다운스트림 작업 손실(예: 교차 엔트로피)과 함께, 확률적 파라미터의 큰 분산을 억제하는 정규화 항을 추가한다. 파인튜닝 절차는 다른 PEFT 방법과 동일하게 몇 에폭만 진행하면 된다.

Results & Findings

Model / DatasetParams (trainable)GLUE Avg. ScoreGPT‑2 NLG BLEU
LoRA (baseline)0.5 % of total84.227.1
BitFit0.2 %83.826.9
GRASP0.05 %84.5 (↑0.3)27.3 (↑0.2)
StochGRASP0.07 %84.7 (↑0.5)27.6 (↑0.5)
  • Parameter reduction: GRASP는 LoRA보다 약 10배 적은 학습 가능한 가중치를 사용하면서도 동등하거나 더 나은 정확도를 제공한다.
  • Noise robustness: 추론 시 모델 가중치에 합성 가우시안 잡음(σ = 0.01–0.05)을 주입했을 때, StochGRASP의 정확도 감소는 <1 %에 그치는 반면, 결정적 베이스라인은 >3 % 감소한다.
  • Scalability: RoBERTa‑base(125 M)와 RoBERTa‑large(355 M) 모두에서 실험했으며, 그룹화 전략이 모델 크기에 따라 K를 재조정할 필요 없이 확장됨을 확인했다.

Practical Implications

  • Edge deployment: 학습 가능한 파라미터가 매우 작아 마이크로컨트롤러·ASIC 등 플래시 용량이 제한된 디바이스에서도 대형 사전학습 백본을 활용한 파인튜닝 모델을 저장·업데이트할 수 있다.
  • Energy‑efficient inference: StochGRASP의 잡음 강인성은 아날로그 메모리 컴퓨팅 등 저정밀 AI 가속기의 확률적 특성과 맞물려, 비용이 많이 드는 오류 정정 회로의 필요성을 줄인다.
  • Rapid iteration: 변경되는 파라미터가 소수에 불과하므로, 동일한 베이스 모델에 대해 다양한 다운스트림 작업을 빠르게 실험할 수 있어 시장 출시 시간을 단축한다.
  • Compatibility: GRASP는 Hugging Face, PyTorch 등 기존 트랜스포머 라이브러리에 최소한의 코드 변경만으로 적용 가능—그룹화할 레이어와 그룹 수만 지정하면 된다.

Limitations & Future Work

  • Group granularity trade‑off: 너무 공격적인 그룹화(매우 작은 K)는 복잡한 작업에서 과소적합을 초래할 수 있다; 논문에서는 제한적인 민감도 분석만 수행했으며, 자동 그룹 크기 선택은 향후 연구 과제로 남겨졌다.
  • Hardware validation: 현재는 시뮬레이션 잡음으로 강인성을 입증했으므로, 실제 아날로그·저정밀 칩에서의 검증이 필요하다.
  • Extension to vision transformers: 본 연구는 NLP 모델에 초점을 맞추었으며, ViT나 멀티모달 트랜스포머에 GRASP를 적용하면 새로운 효율성 경계를 발견할 수 있을 것으로 기대된다.

전반적으로 GRASP와 그 확률적 변형은 파라미터 효율성과 하드웨어 강인성을 동시에 제공하여, 자원 제한 환경에서 대형 트랜스포머 능력을 활용하려는 개발자들에게 실용적인 도구가 된다.

Authors

  • Malyaban Bal
  • Abhronil Sengupta

Paper Information

  • arXiv ID: 2512.04296v1
  • Categories: cs.LG, cs.NE
  • Published: December 3, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…