[논문] Transformer의 정확한 샘플 복잡도

발행: 3일 전 (2026년 6월 9일 AM 01:56 GMT+9)

2 분 소요

원문: arXiv

출처: arXiv - 2606.09731v1

개요

우리는 깊이 $L$인 Transformer가 총 $W$개의 파라미터를 가지고 입력 길이 $T$인 시퀀스를 단일 출력으로 매핑하는 경우의 VC 차원을 정확히 규명한다. 상한 $O(L W \log (T W))$와 거의 일치하는 하한 $Ω(L W \log (T W / L))$를 제시한다. 또한 이러한 Transformer를 이용한 체인‑오브‑쓰스(Chain‑of‑Thought) 학습의 샘플 복잡도를 정확히 규명한다. 교사 강제(teacher forcing, 즉 학습 데이터에서 전체 체인‑오브‑쓰스와 일치하는 예측기를 선택하는 방식)가 샘플 복잡도
(O!\left(L W \log \left(\left(T+T^{\prime}\right) W\right)\right)) 로 학습함을 보이며, 체인‑오브‑쓰스 데이터를 사용하는 어떤 학습 규칙도 최소
(Ω!\left(L W \log \left(\left(T+T^{\prime}\right) W / L\right)\right)) 개의 예제가 필요함을 증명한다. 여기서 $T$는 입력 길이, $T^{\prime}$는 자동회귀 단계 수이다.

주요 기여

이 논문은 다음 분야의 연구를 다룬다.

cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.LG 분야의 발전에 기여한다.

저자

Chenxiao Yang
Nathan Srebro
Zhiyuan Li

논문 정보

arXiv ID: 2606.09731v1
Categories: cs.LG
Published: 2026년 6월 8일
PDF: PDF 다운로드

[논문] Transformer의 정확한 샘플 복잡도

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입

[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지

[논문] 결손 모달리티가 있는 다중모달 학습을 위한 잠재 세계 복원