[Paper] SPQ: 대형 언어 모델 압축을 위한 앙상블 기법

발행: (2026년 2월 21일 오전 03:44 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.18420v1

개요

논문에서는 정확도를 희생하지 않으면서 대형 언어 모델(LLM)을 압축하는 SPQ라는 3단계 앙상블 방법을 소개합니다. 특이값 분해 (Singular Value Decomposition, SVD), 활성화 기반 프루닝, 그리고 8‑bit 사후 훈련 양자화를 순차적으로 적용함으로써, 저자들은 LLaMA‑2‑7B를 최대 **75 %**까지 축소하면서도 퍼플렉시티와 다운스트림 작업 성능을 유지(또는 오히려 향상)시킬 수 있음을 보여줍니다.

주요 기여

  • 통합 압축 파이프라인은 세 가지 보완 기술(SVD + 프루닝 + 양자화)을 결합합니다.
  • 레이어 인식 SVD는 주의 프로젝션 행렬을 저랭크 구성요소로 분해하면서 분산을 보존합니다.
  • 활성화 기반 프루닝은 정적 가중치 크기만이 아니라 런타임 통계에 기반해 중복된 MLP 뉴런을 제거합니다.
  • 메모리 효율적인 8‑bit 선형 양자화를 첫 두 단계 후에 적용하여 단일 패스 사후 훈련 압축을 가능하게 합니다.
  • 경험적 검증은 LLaMA‑2‑7B를 대상으로 언어 모델링(WikiText‑2, C4) 및 추론 벤치마크(TruthfulQA, GSM8K)에서 수행했으며, 단일 방법 기반 베이스라인을 능가하고 GPTQ 및 SparseGPT와 같은 강력한 경쟁자를 매치합니다.
  • **GPTQ 대비 최대 1.9×**의 추론 처리량 향상을 달성했으며, 피크 메모리 사용량도 낮습니다(6.86 GB vs. 7.16 GB).

방법론

  1. SVD 압축 – 각 어텐션 헤드의 투영 행렬 (W)를 (U\Sigma V^\top)로 분해합니다. 목표 분산(예: 99 %)을 유지하는 상위 k개의 특이값만 남김으로써 행렬을 두 개의 작은 팩터로 대체하여 FLOP와 메모리를 감소시킵니다.
  2. 활성화 기반 프루닝 – 대표 데이터셋에 대해 짧은 캘리브레이션 실행 중에 모든 MLP 뉴런의 평균 활성화 크기를 기록합니다. 활성화가 백분위수 임계값 이하인 뉴런을 프루닝하고, 주변 가중치 행렬을 그에 맞게 재배선합니다. 이는 모델 출력에 기여하지 않는 “죽은” 용량을 제거합니다.
  3. 8‑비트 선형 양자화 – SVD와 프루닝 후, 남은 모든 선형 레이어를 표준 사후 훈련 양자화기(예: 채널별 최소‑최대 스케일링)를 사용해 8‑비트 정수로 양자화합니다. 미세 조정이 필요 없으며 파이프라인을 빠르고 하드웨어 친화적으로 유지합니다.

세 단계는 순차적으로 적용되지만 독립적으로 설계되었습니다: SVD는 어텐션의 저‑랭크 중복을 해결하고, 프루닝은 불필요한 MLP 뉴런을 제거하며, 양자화는 모든 것을 균일하게 압축합니다. 저자들은 또한 (랭크 유지 비율, 프루닝 백분위수, 양자화 스킴)이라는 간단한 하이퍼파라미터 탐색을 제공하여 원하는 압축 비율에 맞게 자동화할 수 있습니다.

결과 및 발견

Model / DatasetBaseline PerplexitySPQ (75 % compression)GPTQ (similar memory)
LLaMA‑2‑7B (WikiText‑2)5.474.91 (improved)5.12
LLaMA‑2‑7B (C4)7.317.057.08
TruthfulQA (accuracy)71.2 %71.0 %70.8 %
GSM8K (score)71.571.371.1
  • Memory reduction: 최대 75 % 감소 (피크 RAM이 ~27 GB에서 ~6.8 GB로 감소).
  • Throughput: 단일 A100 GPU에서 GPTQ 대비 1.3–1.9배 빠름.
  • Compression trade‑off: 낮은 압축 비율(예: 50 %)에서도 SPQ는 원본 모델의 퍼플렉시티와 일치하면서 메모리 사용량을 절반으로 줄임.

실험 결과는 앙상블 접근 방식이 단일 기술을 개별적으로 적용했을 때보다 일관되게 우수함을 확인했으며, 세 방법의 상보적인 특성을 강조한다.

실용적 시사점

  • Edge 및 온프레미스 배포: 개발자는 이제 70억 파라미터 LLM을 일반 GPU나 심지어 고성능 CPU에서도 적당한 RAM으로 실행할 수 있어, 프라이빗 클라우드나 디바이스 내 추론 시나리오를 열 수 있습니다.
  • 비용 효율적인 서비스: 메모리 사용량 감소는 더 작은 VM 인스턴스나 GPU당 모델 밀도 증가로 이어져 클라우드 호스팅 비용을 절감합니다.
  • 빠른 응답 시간: 관찰된 추론 속도 향상은 챗봇이나 코드 자동완성 서비스의 지연 시간을 낮추어 사용자 경험을 개선합니다.
  • 간소화된 파이프라인: SPQ가 비용이 많이 드는 파인튜닝이 필요 없는 사후 훈련 과정이므로, 팀은 최소한의 엔지니어링 오버헤드로 기존 CI/CD 워크플로에 통합할 수 있습니다.
  • 호환성: 최종 8비트 모델은 표준 추론 런타임(예: Hugging Face Transformers, vLLM)에서 커스텀 커널 없이 로드할 수 있어 도입이 용이합니다.

제한 사항 및 향후 작업

  • 보정 데이터 의존성: 프루닝 결정은 작은 보정 세트에 의존합니다; 이 세트가 대표성을 갖지 못하면 유용한 뉴런이 제거될 수 있습니다.
  • 고정된 랭크 선택: 현재 SVD 단계는 전역 분산 임계값을 사용합니다; 레이어별 적응형 랭크 선택이 더 나은 트레이드오프를 제공할 수 있습니다.
  • 양자화 세분성: 균일 8‑bit 양자화만 탐색했으며, 혼합 정밀도 또는 최신 정수 포맷(예: 4‑bit)이 압축을 더욱 진행시킬 수 있습니다.
  • 30B 이상 모델에 대한 확장성: 실험은 7B 모델에 집중했으며, SPQ를 실제 대규모 LLM에 적용하려면 메모리 효율적인 SVD 알고리즘이나 분산 프루닝이 추가로 필요할 수 있습니다.

저자들은 자동 하이퍼파라미터 탐색, 압축 후 지식 증류 파인튜닝 통합, 그리고 멀티모달 모델에 대한 SPQ 테스트를 향후 유망한 단계로 제안합니다.

저자

  • Jiamin Yao
  • Eren Gultepe

논문 정보

  • arXiv ID: 2602.18420v1
  • Categories: cs.CL
  • Published: 2026년 2월 20일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »