[Paper] 효율적인 깊이 스케일링을 위한 범용 YOCO
Source: arXiv - 2604.01220v1
개요
이 논문은 Universal YOCO (YOCO‑U) 라는 새로운 아키텍처를 소개합니다. YOCO 디코더‑디코더 설계에 재귀 연산을 결합하여 대형 언어 모델(LLM)이 추론 시 보다 효율적으로 확장될 수 있도록 합니다. 키‑밸류(KV) 캐시 크기를 일정하게 유지하고, 깊은 재귀를 저비용 어텐션 레이어에만 제한함으로써, YOCO‑U는 표준 작업과 장기 컨텍스트 작업 모두에서 비용 대비 성능 비율을 향상시킵니다.
주요 기여
- 범용 셀프‑디코더: 여러 추론 반복에 걸쳐 파라미터를 재사용하는 단일 디코더로, 별도의 “교사”와 “학생” 모델이 필요하지 않음.
- 하이브리드 YOCO + 재귀: YOCO의 고정 크기 전역 KV 캐시와 얕고 효율적인 어텐션 재귀를 결합하여, 어느 하나만으로는 얻을 수 없는 성능 향상을 달성.
- 선형 시간 사전‑채우기: 이 아키텍처는 초기 컨텍스트를 선형 시간에 처리할 수 있게 하여, 일반 트랜스포머에서 흔히 발생하는 2차 복잡도를 피함.
- 실증 검증: 일반 목적 및 장기 컨텍스트 벤치마크에서 경쟁력 있거나 우수한 결과를 보여주며, 토큰당 계산량이 적음.
- 캐시 부풀림 없는 확장 가능한 깊이: 재귀 단계는 KV 캐시를 늘리지 않고 표현 깊이를 추가하여, 깊은 추론에서도 메모리 효율성을 유지함.
Methodology
- YOCO Backbone: YOCO 디코더‑디코더 프레임워크에서 시작하며, 전역 KV 캐시가 모든 레이어에 공유되어 시퀀스 길이가 증가해도 메모리 사용량이 일정하게 유지됩니다.
- Recursive Loop: 모델은 고정된 수의 self‑decoder iterations를 수행합니다. 각 반복에서는 출력 토큰을 동일한 디코더에 다시 입력(파라미터 공유)하여 새로운 레이어를 추가하지 않고 네트워크를 효과적으로 깊게 만듭니다.
- Shallow Efficient‑Attention Layers: 재귀는 선형 복잡도 주의(예: Performer, FlashAttention)를 사용하는 상위 몇 개 트랜스포머 블록에만 제한됩니다. 이를 통해 반복당 비용을 낮게 유지하면서도 표현을 풍부하게 합니다.
- Token Utility Scoring: 추론 시 YOCO‑U는 생성된 각 토큰의 “utility”를 평가하여, 유틸리티가 낮은 토큰에 대해 조기 중단이나 선택적 재계산을 가능하게 함으로써 계산량을 추가로 줄입니다.
- Training Regime: 모델은 모든 재귀 단계에 걸친 손실을 집계하는 엔드‑투‑엔드 방식으로 학습되어, 각 반복이 유용한 중간 예측을 생성하도록 장려합니다.
결과 및 발견
| 벤치마크 | 기준 (표준 Transformer) | YOCO‑U | 상대 속도 향상 |
|---|---|---|---|
| WikiText‑103 (full context) | 31.2 PPL | 29.8 PPL | ~1.3× faster |
| LongChat (8K tokens) | 27.5 PPL | 26.1 PPL | ~1.5× faster |
| Code Generation (CoNaLa) | 18.9 BLEU | 19.6 BLEU | ~1.2× faster |
- 토큰 효용성: YOCO‑U는 평균 약 22 % 정도 낮은 효용성 토큰에 대한 낭비되는 연산을 감소시킵니다.
- 메모리 사용량: KV 캐시 크기는 재귀 깊이에 관계없이 일정하게 유지되어, 원래 20 GB 이상이 필요할 모델도 12 GB 메모리 GPU에서 추론이 가능하도록 합니다.
- 스케일링 곡선: 재귀 단계 수가 증가함에 따라 성능이 서브선형적으로 향상되어 수익 감소가 확인되지만, 대부분의 작업에 대해 여전히 최적점(2–3 단계)을 제공합니다.
Practical Implications
- Deployable on Commodity Hardware: 개발자는 메모리 한계에 걸리지 않으면서도 보통 수준의 GPU 혹은 CPU에서도 더 깊은 효과를 가진 LLM을 실행할 수 있어, 온‑디바이스 AI 비서의 문을 열 수 있습니다.
- Cost‑Effective API Services: 클라우드 제공자는 요청당 GPU 사용 시간을 줄여 더 높은 품질의 응답을 제공할 수 있어, 운영 비용을 절감할 수 있습니다.
- Long‑Context Applications: 검색 기반 생성, 문서 요약, 코드 완성 등은 선형 프리‑필링과 일정한 KV 캐시 덕분에 수만 토큰을 실시간으로 처리하는 것이 가능해집니다.
- Flexible Trade‑off Controls: 추론 시 재귀 반복 횟수를 조정함으로써 서비스는 사용자 요청마다 지연 시간과 답변 품질 사이의 균형을 동적으로 맞출 수 있습니다.
제한 사항 및 향후 연구
- 수익 감소: 3~4 단계 이상의 재귀에서는 이득이 정체되고 지연 시간이 계속 증가하여 보다 스마트한 단계 선택 메커니즘이 필요함을 시사한다.
- 특수화된 어텐션 커널: 효율성 향상은 선형 복잡도 어텐션 구현에 의존하므로 최적화된 커널이 없는 하드웨어에서는 성능이 저하될 수 있다.
- 멀티모달 모델에 대한 일반화: 이 논문은 순수 텍스트에 초점을 맞추고 있어 YOCO‑U를 비전‑언어 또는 오디오 모델에 확장하는 것은 아직 미해결 과제이다.
- 이론적 이해: 경험적 결과는 강력하지만, 얕은 재귀가 YOCO의 캐시 설계와 시너지 효과를 내는 이유에 대한 형식적인 분석은 아직 진행 중이다.
전반적으로 Universal YOCO는 일반적인 추론 시간 비용 폭증 없이 더 강력한 LLM을 구현할 수 있는 실용적인 경로를 제공하며, 확장 가능한 AI 서비스를 구축하는 개발자들에게 매력적인 선택이 된다.
저자
- Yutao Sun
- Li Dong
- Tianzhu Ye
- Shaohan Huang
- Jianyong Wang
- Furu Wei
논문 정보
- arXiv ID: 2604.01220v1
- 분류: cs.CL
- 출판일: 2026년 4월 1일
- PDF: PDF 다운로드