가변 길이 트랜스포머
개요
모델 규모를 확대하고 특히 깊이와 너비를 조절함으로써 트랜스포머 기반 언어 모델에서 큰 진전이 이루어졌습니다. 하지만 대부분의 아키텍처는 모든 레이어에서 너비를 일정하게 유지하며, 고정된 파라미터와 연산 예산을 균등하게 할당합니다. 이는 다른 레이어가 서로 다른 계산적 역할을 수행할 수 있음에도 불구하고 해당됩니다. 본 연구에서는 네트워크 깊이 전체에 걸쳐 비균일하게 용량을 배분하는 것을 empirically 조사하고, 초기층과 말단층은 넓게 유지하면서 중간층을 좁게 하는 $\times$-shaped > <former 아키텍처를 제안합니다. 이 설계는 파라미터 없이 리신트럴 리사이징 메커니즘을 활용하여 초기층과 말단층은 넓게 유지하고 중간층은 좁게 합니다. 200M에서 2B 파라미터(밀도) 및 3B 파라미터(MoE)를 갖는 디코더 전용 언어 모델에 대해, 우리 > <former은 파라미터 매치된 균일한 베이스라인보다 언어 모델링 손실에서 일관되게 우수합니다. 평균 레이어 너비를 줄임으로써 이 아키텍처는 전체 FLOPs를 22%(적합한 손실-맞춤 스케일링 곡선 기준) 감소시키고, KV 캐시 메모리와 I/O 비용을 15% 감소시킵니다. 분석에서는 이 병목 구조가 리신트럴 스트림에서 질적으로 다른 표현을 만든다는 것을 보여줍니다. 전체적으로, 우리 결과는 비균일하게 너비를 할당함으로써 언어 모델의 더 효율적인 스케일링이 가능함을 보여줍니다.
주요 공헌
본 논문은 다음 분야에서 연구를 제시합니다:
- cs.CL
방법론
자세한 방법については 전체 논문을 참고하십시오.
실용적 의미
본 연구는 cs.CL의 발전에 기여합니다.
저자
- Zhaofeng Wu
- Oliver Sieberling
- Shawn Tan
- Rameswar Panda
- Yury Polyanskiy
- Yoon Kim
논문 정보
- arXiv ID: 2606.18246v1
- 카테고리: cs.CL
- 발행일: 2026년 6월 16일
- PDF: PDF 다운로드