새로운 방법이 LLM 훈련 효율성을 높일 수 있다

발행: (2026년 2월 26일 오후 02:00 GMT+9)
11 분 소요

Source: MIT News - AI

위의 링크에 있는 전체 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록이나 URL은 그대로 유지됩니다.)

추론 대형 언어 모델 (LLMs)

추론 LLM은 복잡한 문제를 일련의 작은 단계로 나누어 해결하도록 설계되었습니다. 이러한 강력한 모델은 고급 프로그래밍 및 다단계 계획과 같은 까다로운 작업에서 뛰어난 성능을 발휘합니다.

하지만 추론 모델을 개발하려면 훈련 과정의 비효율성 때문에 막대한 계산량과 에너지가 필요합니다. 몇몇 고성능 프로세서는 복잡한 질의에 지속적으로 작업하는 반면, 많은 프로세서는 대기 상태에 머무릅니다.

MIT와 다른 기관의 연구원들은 이러한 계산 공백 시간을 활용하여 추론 모델 훈련을 효율적으로 가속화하는 방법을 찾아냈습니다.

작동 원리

  1. 작고 빠른 모델 (drafter) – 큰 추론 LLM의 출력을 자동으로 예측하도록 훈련됩니다.
  2. 검증 – 큰 모델이 drafter의 예측을 확인합니다.
  3. 작업량 감소 – 추론 모델이 수행해야 할 작업이 줄어들어 훈련 속도가 빨라집니다.

작은 모델은 적응적으로 훈련 및 배포되며, 일부 프로세서가 유휴 상태일 때만 작동합니다. 낭비될 자원을 활용함으로써 추가적인 오버헤드 없이 훈련 속도가 향상됩니다.

여러 추론 LLM에 대해 테스트한 결과, 이 방법은 정확도를 유지하면서 훈련 속도를 두 배로 높였습니다. 이는 금융 트렌드 예측이나 전력망 위험 탐지와 같은 고급 LLM 응용 분야에서 비용을 절감하고 에너지 효율성을 높일 수 있습니다.

“사람들은 더 복잡한 작업을 처리할 수 있는 모델을 원합니다. 하지만 그게 모델 개발의 목표라면 효율성을 우선시해야 합니다. 우리는 이 문제에 대한 무손실 해결책을 찾았고, 실제로 상당히 큰 속도 향상을 제공할 수 있는 풀스택 시스템을 개발했습니다.”라고 Qinghao Hu는 말합니다. 그는 MIT 박사후 연구원이며 이 **기술에 관한 논문**의 공동 책임 저자입니다.

Hu는 논문에서 공동 책임 저자 Shang Yang(EECS 대학원생), Junxian Guo(EECS 대학원생), 수석 저자 Song Han(EECS 부교수, 연구 전자실 소속, NVIDIA 수석 과학자)과 함께 NVIDIA, ETH Zurich, MIT‑IBM Watson AI Lab, 그리고 University of Massachusetts Amherst의 협력자들과 공동 연구를 진행했습니다. 이 연구는 ACM International Conference on Architectural Support for Programming Languages and Operating Systems에서 발표될 예정입니다.

Training Bottleneck

개발자들은 추론 LLM이 비판적 사고 과정에서 실수를 식별하고 수정하도록 하여, 일반적인 LLM이 어려워하는 질문도 처리할 수 있게 하길 원합니다.

이 능력을 가르치기 위해 개발자들은 강화 학습 (RL) 을 사용합니다:

  1. 모델이 하나의 질의에 대해 여러 가능한 답변을 생성합니다.
  2. 가장 좋은 후보에 대해 보상을 받습니다.
  3. 모델은 그 최상위 답변을 기반으로 업데이트됩니다.

이러한 단계가 수천 번 반복되면서 모델이 학습됩니다.

The Problem

  • Rollout (여러 답변을 생성하는 과정)이 **전체 RL 훈련 실행 시간의 최대 85 %**까지 차지할 수 있습니다.
  • Updating 모델—즉 실제 “훈련” 부분—은 비교적 적은 시간을 차지합니다.

“모델을 업데이트하는—실제 ‘훈련’ 부분—은 비교적 매우 적은 시간만을 소비한다”고 Hu는 말합니다.

표준 RL에서는 모든 프로세서가 응답을 마쳐야 다음 단계로 넘어갈 수 있습니다. 일부 프로세서가 긴 응답을 처리하는 동안, 일찍 끝난 다른 프로세서들은 대기하게 됩니다.

“우리의 목표는 이 대기 시간을 낭비 없이 속도 향상으로 전환하는 것이었다”고 Hu는 덧붙였습니다.

Speculative Decoding

연구자들은 speculative decoding 으로 전환했습니다. 이는 다음과 같은 과정을 포함합니다:

  • 작은 “drafter” 모델을 훈련시켜 큰 모델의 미래 출력을 빠르게 추측하게 합니다.
  • 큰 모델이 그 추측을 검증하도록 합니다.
  • 검증된 추측을 훈련에 활용합니다.

큰 모델이 한 번에 많은 추측을 검증할 수 있기 때문에, 전체 과정이 가속화됩니다.

적응형 솔루션: “Long Tail 길들이기” (TLT)

Speculative decoding은 전통적으로 정적 drafter를 사용합니다. 이 drafter는 한 번 학습된 뒤 변경되지 않으며, 수천 번 업데이트되는 RL 환경에서는 곧 구식이 됩니다.

TLT 구성 요소

  1. Adaptive Drafter Trainer

    • 유휴 프로세서 시간을 활용해 drafter를 실시간으로 학습시켜, 추가 연산 자원 없이도 목표 모델과 정렬된 상태를 유지합니다.
  2. Adaptive Rollout Engine

    • speculative decoding을 관리하며, 새로운 입력 배치마다 최적의 전략을 자동으로 선택합니다.
    • 워크로드 특성(예: drafter가 처리한 입력 수 vs. 목표 모델이 수용한 입력 수)에 따라 구성값을 조정합니다.

drafter는 의도적으로 경량하게 설계되어 빠른 학습이 가능합니다. TLT는 또한 reasoning‑model 학습 파이프라인의 구성 요소를 재사용하여 추가 가속을 얻습니다.

“일부 프로세서가 짧은 쿼리를 마치고 유휴 상태가 되면, 우리는 즉시 해당 프로세서를 rollout 과정에서 사용한 동일한 데이터를 이용해 draft 모델 학습으로 전환합니다. 핵심 메커니즘은 우리의 adaptive speculative decoding이며—이러한 이득은 없었다면 불가능했을 것입니다,” 라고 Hu는 말합니다.

결과

  • 실제 데이터셋을 사용한 여러 reasoning LLM에 대해 테스트했습니다.
  • 학습 속도가 70 %에서 210 %까지 증가했으며 모델 정확도는 유지되었습니다.
  • 작은 drafter 모델은 효율적인 배포용으로 재활용될 수 있는 부가적인 산출물로도 활용됩니다.

앞으로

TLT는 유휴 컴퓨팅 자원을 활용함으로써 성능을 희생하지 않고도 추론‑모델 훈련을 크게 가속화할 수 있음을 보여줍니다. 이 접근법은 향후 LLM 개발을 위해 비용을 낮추고 에너지 효율을 높일 것을 약속합니다.

통합 및 향후 방향

연구자들은 TLT를 보다 폭넓은 훈련 및 추론 프레임워크에 통합하고, 이 접근법을 활용한 가속화의 혜택을 받을 수 있는 새로운 강화 학습 응용 분야를 발굴하는 것을 목표로 합니다.

“추론이 계속해서 추론에 대한 수요를 견인하는 주요 작업이 됨에 따라, Qinghao의 TLT는 이러한 추론 모델 훈련의 계산 병목 현상을 해결하기 위한 훌륭한 작업입니다. 저는 이 방법이 효율적인 AI 컴퓨팅 맥락에서 매우 도움이 될 것이라고 생각합니다,” — Song Han

자금 출처

  • MIT‑IBM Watson AI Lab
  • MIT AI Hardware Program
  • MIT Amazon Science Hub
  • 현대자동차
  • National Science Foundation
0 조회
Back to Blog

관련 글

더 보기 »

우리와 전쟁부 간의 협정

펜타곤과의 합의 어제 우리는 펜타곤과 기밀 환경에서 고급 AI 시스템을 배치하기 위한 합의를 체결했으며, 우리는 요청했습니다...