[Paper] 효율적인 깊이 스케일링을 위한 범용 YOCO

발행: (2026년 4월 2일 오전 02:58 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2604.01220v1

개요

이 논문은 Universal YOCO (YOCO‑U) 라는 새로운 아키텍처를 소개합니다. YOCO 디코더‑디코더 설계에 재귀 연산을 결합하여 대형 언어 모델(LLM)이 추론 시 보다 효율적으로 확장될 수 있도록 합니다. 키‑밸류(KV) 캐시 크기를 일정하게 유지하고, 깊은 재귀를 저비용 어텐션 레이어에만 제한함으로써, YOCO‑U는 표준 작업과 장기 컨텍스트 작업 모두에서 비용 대비 성능 비율을 향상시킵니다.

주요 기여

  • 범용 셀프‑디코더: 여러 추론 반복에 걸쳐 파라미터를 재사용하는 단일 디코더로, 별도의 “교사”와 “학생” 모델이 필요하지 않음.
  • 하이브리드 YOCO + 재귀: YOCO의 고정 크기 전역 KV 캐시와 얕고 효율적인 어텐션 재귀를 결합하여, 어느 하나만으로는 얻을 수 없는 성능 향상을 달성.
  • 선형 시간 사전‑채우기: 이 아키텍처는 초기 컨텍스트를 선형 시간에 처리할 수 있게 하여, 일반 트랜스포머에서 흔히 발생하는 2차 복잡도를 피함.
  • 실증 검증: 일반 목적 및 장기 컨텍스트 벤치마크에서 경쟁력 있거나 우수한 결과를 보여주며, 토큰당 계산량이 적음.
  • 캐시 부풀림 없는 확장 가능한 깊이: 재귀 단계는 KV 캐시를 늘리지 않고 표현 깊이를 추가하여, 깊은 추론에서도 메모리 효율성을 유지함.

Methodology

  1. YOCO Backbone: YOCO 디코더‑디코더 프레임워크에서 시작하며, 전역 KV 캐시가 모든 레이어에 공유되어 시퀀스 길이가 증가해도 메모리 사용량이 일정하게 유지됩니다.
  2. Recursive Loop: 모델은 고정된 수의 self‑decoder iterations를 수행합니다. 각 반복에서는 출력 토큰을 동일한 디코더에 다시 입력(파라미터 공유)하여 새로운 레이어를 추가하지 않고 네트워크를 효과적으로 깊게 만듭니다.
  3. Shallow Efficient‑Attention Layers: 재귀는 선형 복잡도 주의(예: Performer, FlashAttention)를 사용하는 상위 몇 개 트랜스포머 블록에만 제한됩니다. 이를 통해 반복당 비용을 낮게 유지하면서도 표현을 풍부하게 합니다.
  4. Token Utility Scoring: 추론 시 YOCO‑U는 생성된 각 토큰의 “utility”를 평가하여, 유틸리티가 낮은 토큰에 대해 조기 중단이나 선택적 재계산을 가능하게 함으로써 계산량을 추가로 줄입니다.
  5. Training Regime: 모델은 모든 재귀 단계에 걸친 손실을 집계하는 엔드‑투‑엔드 방식으로 학습되어, 각 반복이 유용한 중간 예측을 생성하도록 장려합니다.

결과 및 발견

벤치마크기준 (표준 Transformer)YOCO‑U상대 속도 향상
WikiText‑103 (full context)31.2 PPL29.8 PPL~1.3× faster
LongChat (8K tokens)27.5 PPL26.1 PPL~1.5× faster
Code Generation (CoNaLa)18.9 BLEU19.6 BLEU~1.2× faster
  • 토큰 효용성: YOCO‑U는 평균 약 22 % 정도 낮은 효용성 토큰에 대한 낭비되는 연산을 감소시킵니다.
  • 메모리 사용량: KV 캐시 크기는 재귀 깊이에 관계없이 일정하게 유지되어, 원래 20 GB 이상이 필요할 모델도 12 GB 메모리 GPU에서 추론이 가능하도록 합니다.
  • 스케일링 곡선: 재귀 단계 수가 증가함에 따라 성능이 서브선형적으로 향상되어 수익 감소가 확인되지만, 대부분의 작업에 대해 여전히 최적점(2–3 단계)을 제공합니다.

Practical Implications

  • Deployable on Commodity Hardware: 개발자는 메모리 한계에 걸리지 않으면서도 보통 수준의 GPU 혹은 CPU에서도 더 깊은 효과를 가진 LLM을 실행할 수 있어, 온‑디바이스 AI 비서의 문을 열 수 있습니다.
  • Cost‑Effective API Services: 클라우드 제공자는 요청당 GPU 사용 시간을 줄여 더 높은 품질의 응답을 제공할 수 있어, 운영 비용을 절감할 수 있습니다.
  • Long‑Context Applications: 검색 기반 생성, 문서 요약, 코드 완성 등은 선형 프리‑필링과 일정한 KV 캐시 덕분에 수만 토큰을 실시간으로 처리하는 것이 가능해집니다.
  • Flexible Trade‑off Controls: 추론 시 재귀 반복 횟수를 조정함으로써 서비스는 사용자 요청마다 지연 시간과 답변 품질 사이의 균형을 동적으로 맞출 수 있습니다.

제한 사항 및 향후 연구

  • 수익 감소: 3~4 단계 이상의 재귀에서는 이득이 정체되고 지연 시간이 계속 증가하여 보다 스마트한 단계 선택 메커니즘이 필요함을 시사한다.
  • 특수화된 어텐션 커널: 효율성 향상은 선형 복잡도 어텐션 구현에 의존하므로 최적화된 커널이 없는 하드웨어에서는 성능이 저하될 수 있다.
  • 멀티모달 모델에 대한 일반화: 이 논문은 순수 텍스트에 초점을 맞추고 있어 YOCO‑U를 비전‑언어 또는 오디오 모델에 확장하는 것은 아직 미해결 과제이다.
  • 이론적 이해: 경험적 결과는 강력하지만, 얕은 재귀가 YOCO의 캐시 설계와 시너지 효과를 내는 이유에 대한 형식적인 분석은 아직 진행 중이다.

전반적으로 Universal YOCO는 일반적인 추론 시간 비용 폭증 없이 더 강력한 LLM을 구현할 수 있는 실용적인 경로를 제공하며, 확장 가능한 AI 서비스를 구축하는 개발자들에게 매력적인 선택이 된다.

저자

  • Yutao Sun
  • Li Dong
  • Tianzhu Ye
  • Shaohan Huang
  • Jianyong Wang
  • Furu Wei

논문 정보

  • arXiv ID: 2604.01220v1
  • 분류: cs.CL
  • 출판일: 2026년 4월 1일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »