[논문] PSViT: 스파이킹 비전 트랜스포머의 구조적 가지치기 방법론

발행: (2026년 6월 2일 PM 04:18 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.03257v1

개요

Spiking Vision Transformer (SViT) 모델은 최첨단 성능을 보이는 저전력 비전 트랜스포머 모델로, 시각 기반 작업을 해결하는 데 유망합니다. 그러나 모델 크기가 커서 자원 제한이 있는 임베디드 플랫폼에 배치하기 어려워 모델 압축의 필요성이 강조됩니다. 주요 압축 기법 중 하나인 프루닝은 최신 연구에서 비구조적 프루닝 기법을 사용해 SViT 모델을 압축하고 있습니다. 이러한 기법은 효율성을 극대화하기 위해 희소성 패턴에 맞춘 특수 하드웨어 아키텍처가 필요하므로 확장성이 떨어집니다. 이를 해결하고자 우리는 SViT 모델에 구조화된 프루닝을 적용하는 새로운 방법론인 PSViT를 제안합니다. 이를 통해 기존에 널리 사용되는 컴퓨팅 아키텍처만으로도 추론을 효율적으로 가속화할 수 있습니다. PSViT는 다음과 같은 핵심 단계를 포함합니다: 비중요 가중치를 구조적으로 제거하기 위한 균일 채널별 필터 프루닝, 개별 레이어의 채널별 프루닝이 정확도와 네트워크 크기에 미치는 영향을 평가하는 민감도 분석, 그리고 민감도 분석 결과와 주어진 네트워크 구조에 기반한 세밀한 채널별 프루닝. 실험 결과, PSViT는 단일 샷 프루닝만으로 메모리를 22.4% 절감하면서도 원본 비프루닝 SViT 모델(73.3%) 대비 3% 이내의 높은 정확도를 유지합니다(미세조정 없이 70.3%, 미세조정 후 72.8%). 이러한 결과는 PSViT가 자원 제한 애플리케이션에서 효율적인 SViT 배치를 가능하게 하는 데 기여함을 보여줍니다.

핵심 기여

이 논문은 다음 분야의 연구를 다룹니다:

  • cs.NE
  • cs.AI
  • cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.NE 분야의 발전에 기여합니다.

저자

  • Rachmad Vidya Wicaksana Putra
  • Achyuta Muthuvelan
  • Alberto Marchisio
  • Muhammad Shafique

논문 정보

  • arXiv ID: 2606.03257v1
  • 분류: cs.NE, cs.AI, cs.LG
  • 발표일: 2026년 6월 2일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »