[Paper] QSLM: 성능 및 메모리 인식 양자화 프레임워크와 계층적 탐색 전략을 활용한 스파이크 기반 언어 모델

발행: 1개월 전 (2026년 1월 2일 오후 10:05 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2601.00679v1

Overview

논문은 QSLM이라는 자동 양자화 프레임워크를 소개합니다. 이 프레임워크는 정확도를 희생하지 않으면서 스파이크 기반 언어 모델(SLM)을 압축합니다. 성능과 메모리를 동시에 최적화함으로써 QSLM은 저전력·자원 제한이 있는 엣지 디바이스에서 복잡한 언어 모델을 실행할 수 있게 합니다.

주요 기여

자동화된 계층형 양자화 (global → block → module level) 로, 사전 학습된 SLM의 계층 구조에 맞게 조정됩니다.
다목적 트레이드오프 함수 로, 추론 지연시간, 전력 소비, 메모리 사용량을 균형 있게 조정하면서 작업 수준 정확도를 유지합니다.
민감도 인식 레이어 분석 로, 네트워크의 어느 부분을 공격적으로 양자화할 수 있고 어느 부분이 더 높은 정밀도가 필요한지 빠르게 식별합니다.
경험적 검증 은 감성 분류(SST‑2)와 언어 생성(WikiText‑2)에서 수행되었으며, 최대 86.5 % 메모리 감소와 ≈20 % 전력 절감을 달성하면서 정확도/당혹도 감소가 2 % 미만임을 보여줍니다.

방법론

Architecture profiling – QSLM은 SLM을 파싱하여 계층(레이어 → 블록 → 모듈)을 구축하고, 가벼운 캘리브레이션 세트를 사용해 각 구성 요소의 양자화 민감도를 측정합니다.
Tiered search strategy –
- Global level: 전체 모델에 대해 거친 비트‑폭(예: 8‑bit)을 적용합니다.
- Block level: 각 트랜스포머 블록의 민감도 점수를 기반으로 비트‑폭을 세밀하게 조정합니다.
- Module level: 필요에 따라 중요한 서브‑모듈(예: 어텐션 헤드, 피드‑포워드 네트워크)을 더 높은 정밀도로 미세 조정합니다.
Multi‑objective optimization – 가중 비용 함수를 사용해 후보 양자화 스킴을 사용자 정의 제약조건(최대 메모리, 목표 지연시간, 허용 가능한 정확도 손실)과 비교 평가합니다. 옵티마이저는 모든 제약을 가장 잘 만족하는 구성을 선택합니다.
Post‑training quantization – 선택된 스킴을 재학습 없이 적용하여 배포 파이프라인을 빠르고 가볍게 유지합니다.

결과 및 발견

지표	기준 (비양자화)	QSLM‑양자화	상대 변화
메모리 사용량	100 %	13.5 % (‑86.5 %)	↓
전력 소비 (추론)	100 %	≈80 % (‑20 %)	↓
SST‑2 정확도	86.4 %	84.4 %	–2 %
WikiText‑2 당혹도	22.5	23.2	+0.7

이 결과는 QSLM이 모델 크기와 에너지 사용량을 크게 줄이면서도 작업 성능을 원본 모델에 비해 몇 퍼센트 포인트 안에 유지한다는 것을 보여줍니다—엣지 애플리케이션에서 일반적으로 허용되는 오차 범위 내에 있습니다.

실용적인 시사점

Edge AI 배포 – 개발자들은 이제 기존에 작은 LLM조차 호스팅할 RAM이 부족했던 마이크로컨트롤러, 웨어러블, 혹은 IoT 게이트웨이에 SLM을 탑재할 수 있습니다.
클라우드 의존도 감소 – 디바이스 내 추론은 지연 시간을 줄이고 데이터 프라이버시 문제를 완화하여 실시간 언어 이해를 가능하게 합니다 (예: 음성 비서, 디바이스 내 요약).
빠른 설계 주기 – QSLM이 사후 학습 단계에서 작동하기 때문에 팀은 새로운 SLM 릴리스를 자동으로 양자화할 수 있어, 전통적으로 모델 압축 파이프라인을 병목시키는 수동적인 시행착오 튜닝을 피할 수 있습니다.
에너지 인식 스케줄링 – 프레임워크의 전력 인식 목표는 시스템 통합자가 약간의 정확도 감소를 배터리 구동 제품의 눈에 띄는 배터리 수명 연장과 교환할 수 있게 합니다.

제한 사항 및 향후 작업

보정 데이터 의존성 – 민감도 분석은 대표적인 데이터셋에 의존하며, 데이터 불일치는 보지 않은 입력에 대해 최적이 아닌 비트 폭 선택을 초래할 수 있습니다.
고정 양자화 방식 – QSLM은 현재 균일 정수 양자화를 지원하며, 혼합 정밀도 또는 비균일 방식 탐색을 통해 추가적인 향상을 얻을 수 있습니다.
대규모 LLM에 대한 확장성 – 스파이크 기반 모델에서는 효과적이지만, 동일한 단계적 탐색을 전체 규모 트랜스포머 LLM에 적용하려면 탐색 시간을 관리하기 위한 추가적인 휴리스틱이 필요할 수 있습니다.

저자들은 QSLM을 동적 런타임 양자화를 지원하도록 확장하고, 신흥 뉴로모픽 가속기를 위한 하드웨어 인식 비용 모델을 통합할 것을 제안합니다.

저자

Rachmad Vidya Wicaksana Putra
Pasindu Wickramasinghe
Muhammad Shafique

논문 정보

arXiv ID: 2601.00679v1
분류: cs.NE, cs.AI, cs.LG
출판일: 2026년 1월 2일
PDF: PDF 다운로드

[Paper] QSLM: 성능 및 메모리 인식 양자화 프레임워크와 계층적 탐색 전략을 활용한 스파이크 기반 언어 모델

Overview

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Cine Cardiac MRI에서 좌심실 자동 분할을 위한 두 가지 Deep Learning 접근법

[Paper] 이성의 기하학: 유효한 수학적 추론의 스펙트럼 서명

[Paper] FedHypeVAE: 차등 프라이버시 임베딩 공유를 위한 Hypernetwork 생성 Conditional VAE를 활용한 Federated Learning

[Paper] 범주형 재파라미터화와 디노이징 디퓨전 모델