[Paper] MAR: 모듈 인식 아키텍처 정제를 통한 효율적인 대규모 언어 모델

발행: 1주 전 (2026년 1월 29일 오후 07:21 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2601.21503v1

개요

대형 언어 모델(LLM)은 많은 AI 제품의 핵심이 되었지만, 이들의 2차 시간 복잡도를 갖는 어텐션과 조밀한 피드‑포워드 네트워크(FFN)는 추론 시 계산량과 에너지 소모가 크게 발생합니다. 논문 **“MAR: Efficient Large Language Models via Module‑aware Architecture Refinement”**는 LLM의 비용이 많이 드는 부분을 보다 효율적인 대안—시퀀스 처리를 위한 상태 공간 모델(SSM)과 희소화된 활성화 함수 기반 FFN—으로 교체하는 두 단계 프레임워크를 제시하면서 성능을 유지하거나 오히려 향상시킵니다.

핵심 기여

Module‑aware Architecture Refinement (MAR): 2차 곱셈 주의(attention)를 선형 시간 SSM으로 교체하고, 각 레이어를 손수 튜닝하지 않고도 FFN 활성화를 희소화하는 체계적인 파이프라인.
Adaptive Ternary Multi‑step Neuron (ATMN): SSM과 Spiking Neural Networks (SNN) 사이의 시간 불일치를 연결해, 저정보 밀도 신호를 효율적으로 처리할 수 있게 하는 새로운 스파이킹 뉴런 설계.
Spike‑aware Bidirectional Distillation Strategy (SBDS): 조밀한 교사 모델의 지식을 SSM과 SNN 모듈 모두에 동시에 증류하는 학습 레시피로, 정제된 아키텍처가 원래 정확도를 회복하도록 보장.
Comprehensive energy‑aware evaluation: 저자들은 실제 하드웨어에서 추론 에너지를 측정하여, 조밀한 베이스라인 대비 **45 %**까지 에너지 감소를 달성하면서 BLEU/GLUE 점수를 동일하거나 상회함을 보여줌.
Scalable to large model sizes: MAR는 파라미터 수가 비슷하거나 더 큰 다른 “효율적인” LLM 변형(예: LoRA‑pruned, quantized, 혹은 sparsified 모델)보다도 뛰어난 성능을 발휘.

방법론

2단계 정제

1단계 – 어텐션 교체: 각 Transformer 자체 어텐션 블록을 선형 시간 SSM(예: HiPPO 기반)으로 교체합니다. SSM은 토큰 시퀀스를 O(N) 시간에 처리하여 N² 어텐션 행렬을 없앱니다.
2단계 – FFN 희소화: 활성화 기반 프루닝을 사용해 밀집 FFN을 희소화된 버전으로 변환합니다. 토큰당 상위 k 활성화만 유지하여 밀집 행렬 곱셈을 훨씬 저렴한 희소 연산으로 바꿉니다.

스파이킹 인식 통합

ATMN은 연속적인 SSM 출력을 여러 타임스텝에 걸쳐 삼진 스파이크(‑1, 0, +1)로 변환하여 정보를 보존하면서 다운스트림 SNN이 최소 에너지로 동작하도록 합니다.
SBDS는 양방향 지식 증류를 수행합니다: 밀집 교사가 SSM의 은닉 상태를 안내하고, SNN의 스파이킹 동역학은 교사의 토큰 수준 로짓을 모방하도록 정규화됩니다. 이 공동 학습은 구조 교체로 인한 성능 손실을 회복합니다.

학습 파이프라인

표준 밀집 LLM(교사)을 사전 학습합니다.
교사를 고정하고 MAR‑정제 학생을 SBDS와 함께 학습하며, SSM 전용과 SSM+SNN 순전파를 교대로 수행합니다.
수천 스텝마다 업데이트되는 크기 기반 마스크를 사용해 희소화된 FFN을 미세 조정합니다.

전체 과정은 레이어 깊이와 토큰별 정보 밀도를 기준으로 SSM을 적용할지 전통 어텐션을 적용할지를 결정하는 “모듈 인식” 스케줄러를 통해 자동화됩니다.

결과 및 발견

모델 (파라미터)	메트릭 (예: GLUE 평균)	토큰당 에너지 (mJ)	Dense 대비 속도 향상
Dense Baseline (7 B)	84.2	1.00 (baseline)	1×
MAR‑7B (SSM + Sparse FFN)	84.0	0.55	1.8×
MAR‑13B (SSM + Sparse FFN + ATMN)	84.5	0.48	2.1×
LoRA‑pruned‑7B	82.7	0.71	1.4×
Quant‑8‑bit‑7B	83.1	0.68	1.5×

성능 동등성: MAR는 언어 이해 벤치마크(GLUE, SuperGLUE)와 생성 작업(BLEU, ROUGE) 전반에 걸쳐 dense 모델 정확도의 >99 %를 회복합니다.
에너지 절감: NVIDIA A100 및 저전력 ARM CPU에서의 실제 측정 결과, 토큰당 추론 에너지가 최대 45 % 감소함을 보여줍니다.
확장성: 13 B 파라미터로 확장할 때에도 MAR는 더 큰 dense 베이스라인보다 여전히 우수하며, 효율성 향상이 모델 크기와 함께 누적됨을 나타냅니다.

Practical Implications

Edge‑AI & on‑device LLMs: 선형‑시간 SSM 및 스파이킹 구성 요소 덕분에 배터리 제한이 있는 장치(예: 스마트폰, 웨어러블)에서도 품질을 희생하지 않고 정교한 언어 모델을 실행할 수 있습니다.
Cloud cost reduction: 추론이 많이 필요한 서비스(챗봇, 코드 어시스턴트)에서 MAR은 GPU 사용 시간 비용과 탄소 발자국을 줄여 운영 비용을 직접 낮출 수 있습니다.
Simplified deployment pipelines: MAR이 attention/FFN 모듈을 바로 대체할 수 있기 때문에 기존 Transformer 코드베이스를 최소한의 엔지니어링 작업으로 재구성할 수 있습니다—모듈을 교체하고 제공된 SBDS 학습 스크립트를 실행하면 됩니다.
Compatibility with other efficiency tricks: MAR은 양자화, 모델 병렬화, 또는 LoRA 파인튜닝과 결합될 수 있어 최적화를 위한 계층적 접근 방식을 제공합니다.

제한 사항 및 향후 작업

SSM 및 스파이크에 대한 하드웨어 지원: 저자들은 GPU/CPU에서 에너지를 측정했지만, 가장 큰 이득은 삼진 스파이크를 네이티브로 처리하는 특수 신경형 또는 ASIC 가속기에서 나타납니다; 보다 넓은 하드웨어 지원은 아직 초기 단계입니다.
학습 오버헤드: 2단계 정제와 양방향 증류를 결합하면 일반적인 밀집 모델에 비해 약 30 %의 추가 학습 시간이 소요됩니다.
시간 정렬 민감도: ATMN 설계는 특정 시퀀스 길이를 가정합니다; 매우 긴 문서(> 4 k 토큰)는 여전히 잔여 시간 불일치로 인해 영향을 받을 수 있습니다.

향후 방향은 다음과 같습니다:

신흥 AI 칩을 위한 SSM 커널 공동 설계.
런타임 지연 제약에 반응하는 적응형 희소성 스케줄.
멀티모달 트랜스포머(비전‑언어, 음성)로 MAR 확장.

핵심 요약: MAR은 개발자가 의존하는 사용자 경험 품질을 손상시키지 않으면서 대형 언어 모델을 더 친환경적이고 빠르게 만들 수 있는 실용적인 경로를 제공합니다. 선형 시간 역학과 스파이킹 희소성 관점에서 핵심 어텐션 및 피드‑포워드 블록을 재고함으로써, 이 프레임워크는 클라우드 클러스터에서 엣지까지 진정으로 확장 가능한 LLM 배포의 문을 엽니다.

저자

Junhong Cai
Guiqin Wang
Kejie Zhao
Jianxiong Tang
Xiang Wang
Luziwei Leng
Ran Cheng
Yuxin Ma
Qinghai Guo

논문 정보

arXiv ID: 2601.21503v1
분류: cs.AI, cs.CL, cs.LG, cs.NE
출판일: 2026년 1월 29일
PDF: PDF 다운로드

[Paper] MAR: 모듈 인식 아키텍처 정제를 통한 효율적인 대규모 언어 모델

개요

핵심 기여

방법론

2단계 정제

스파이킹 인식 통합

학습 파이프라인

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] FOCUS: DLLMs는 Compute Bound를 제어하는 방법을 알고 있다

[Paper] Agnostic 언어 식별 및 생성

[Paper] 이제 들으세요: Audio Narrative Attacks Against Large Audio-Language Models

[Paper] Process Rewards를 활용한 Multiagent Systems 스케일링