가변 길이 트랜스포머

발행: 2일 전 (2026년 6월 17일 AM 02:59 GMT+9)

4 분 소요

원문: arXiv

개요

모델 규모를 확대하고 특히 깊이와 너비를 조절함으로써 트랜스포머 기반 언어 모델에서 큰 진전이 이루어졌습니다. 하지만 대부분의 아키텍처는 모든 레이어에서 너비를 일정하게 유지하며, 고정된 파라미터와 연산 예산을 균등하게 할당합니다. 이는 다른 레이어가 서로 다른 계산적 역할을 수행할 수 있음에도 불구하고 해당됩니다. 본 연구에서는 네트워크 깊이 전체에 걸쳐 비균일하게 용량을 배분하는 것을 empirically 조사하고, 초기층과 말단층은 넓게 유지하면서 중간층을 좁게 하는 $\times$-shaped > <former 아키텍처를 제안합니다. 이 설계는 파라미터 없이 리신트럴 리사이징 메커니즘을 활용하여 초기층과 말단층은 넓게 유지하고 중간층은 좁게 합니다. 200M에서 2B 파라미터(밀도) 및 3B 파라미터(MoE)를 갖는 디코더 전용 언어 모델에 대해, 우리 > <former은 파라미터 매치된 균일한 베이스라인보다 언어 모델링 손실에서 일관되게 우수합니다. 평균 레이어 너비를 줄임으로써 이 아키텍처는 전체 FLOPs를 22%(적합한 손실-맞춤 스케일링 곡선 기준) 감소시키고, KV 캐시 메모리와 I/O 비용을 15% 감소시킵니다. 분석에서는 이 병목 구조가 리신트럴 스트림에서 질적으로 다른 표현을 만든다는 것을 보여줍니다. 전체적으로, 우리 결과는 비균일하게 너비를 할당함으로써 언어 모델의 더 효율적인 스케일링이 가능함을 보여줍니다.

주요 공헌

본 논문은 다음 분야에서 연구를 제시합니다:

cs.CL

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 의미

본 연구는 cs.CL의 발전에 기여합니다.

저자

Zhaofeng Wu
Oliver Sieberling
Shawn Tan
Rameswar Panda
Yury Polyanskiy
Yoon Kim

논문 정보

arXiv ID: 2606.18246v1
카테고리: cs.CL
발행일: 2026년 6월 16일
PDF: PDF 다운로드

가변 길이 트랜스포머

개요

주요 공헌

방법론

실용적 의미

저자

논문 정보

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 튜링 보상으로 사용자 시뮬레이터 학습

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation