연구진, LLM 추론 전략 설계 자동화·토큰 사용량 69.5% 절감

발행: (2026년 5월 29일 AM 06:32 GMT+9)
12 분 소요

Source: VentureBeat

테스트 시점 스케일링 (TTS)

테스트 시점 스케일링(TTS)은 추론 시점에 추가 연산 사이클을 제공함으로써 실제 애플리케이션에서 대형 언어 모델(LLM)의 성능을 향상시키는 검증된 방법으로 부상했습니다. 기존의 TTS 전략은 대부분 사람이 직접 설계했으며, 모델의 추론 규칙을 정하는 데 인간 직관에 크게 의존했습니다.

이 병목을 해소하기 위해 Meta, Google 및 여러 대학의 연구진이 AutoTTS를 발표했습니다. AutoTTS는 최적의 TTS 전략을 자동으로 탐색하는 프레임워크로, 기업이 휴먼 히어리스틱을 수동으로 조정하지 않고도 동적으로 연산 할당을 최적화할 수 있게 합니다.

AutoTTS가 발견한 최적 전략을 적용하면, 조직은 고급 추론 모델을 프로덕션에 배포할 때 토큰 사용량과 운영 비용을 직접 줄일 수 있습니다. 실험에서는 AutoTTS가 추론 예산을 효율적으로 관리해 정확도를 희생하지 않으면서 토큰 소비를 최대 **69.5 %**까지 감소시켰습니다.


테스트 시점 스케일링의 수동적 병목

테스트 시점 스케일링은 답변을 생성할 때 모델에 추가 연산을 부여함으로써 LLM을 강화합니다. 이 추가 연산을 통해 모델은:

  • 여러 추론 경로를 생성하거나
  • 최종 응답에 도달하기 전에 중간 단계를 평가할 수 있습니다.

TTS 전략을 설계할 때 가장 큰 과제는 이 추가 연산을 어떻게 최적 배분할 것인가를 결정하는 것입니다. 기존에는 연구자들이 직관에 의존해 경직된 히어리스틱을 수작업으로 만들었습니다. 엔지니어는 모델이 언제:

  1. 새로운 추론 경로로 분기해야 하는지,
  2. 기존 경로를 깊게 탐색해야 하는지,
  3. 가능성이 낮은 분기를 가지치기해야 하는지, 혹은
  4. 추론을 중단해야 하는지

에 대한 규칙과 임계값을 가설로 세워야 했습니다.

인간 직관에만 의존하는 수동 튜닝 과정은 탐색 가능한 접근법의 폭을 크게 제한해, 모델 정확도와 연산 비용 사이에서 최적이 아닌 절충점을 초래하는 경우가 많았습니다.

기존 TTS 알고리즘 (폭‑깊이 제어 공간)

알고리즘폭 (분기 수)깊이 (분기당 단계 수)핵심 아이디어
Self‑Consistency (SC)고정된 트래젝터리 수고정여러 트래젝터리를 샘플링하고 다수결로 답을 선택
Adaptive‑Consistency (ASC)가변가변신뢰도 임계값에 도달하면 조기에 중단해 연산을 절감
Parallel‑Probe동적동적가능성이 낮은 분기를 가지치기하고 나머지는 더 깊게 탐색

세 알고리즘 모두 수작업으로 만들어졌으며, 바로 이 한계가 AutoTTS가 깨고자 하는 목표입니다.

일부 고급 방법은 트리 탐색이나 외부 검증기와 같은 풍부한 구조를 사용하지만, 이들 역시 철저히 수작업이라는 공통점을 갖습니다. 이러한 수동 접근은 전략 탐색 범위를 크게 제한해, 잠재적인 자원 할당 공간 대부분을 활용하지 못하게 합니다.


AutoTTS로 전략 탐색 자동화

AutoTTS는 테스트 시점 스케일링을 최적화하는 방식을 근본적으로 재구성합니다. 전략 설계를 인간 작업으로 보지 않고, 제어된 환경 내에서의 알고리즘 탐색 문제로 전환합니다.

역할 재정의

역할전통적 접근AutoTTS 접근
인간 엔지니어분기·가지치기·중단 규칙을 수작업으로 만든다탐색 환경을 구축한다: 상태/행동 공간, 최적화 목표(정확도 vs 비용), 피드백 메커니즘 정의
AI 모델(탐색자)미리 정의된 전략을 실행한다반복적으로 TTS “컨트롤러”를 제안하는 자율 에이전트 역할을 한다. 이 컨트롤러는 LLM이 추론 시 연산 예산을 어떻게 할당할지 정의하는 코드 기반 정책이다.

오프라인 리플레이 환경

자동 탐색을 계산 비용 효율적으로 유지하기 위해 AutoTTS는 오프라인 리플레이 환경을 활용합니다:

  1. 사전 수집: 기본 LLM으로부터 수천 개의 추론 트래젝터리를 모은다.
  2. 각 트래젝터리에는 프로브 신호(중간 답변)가 포함돼 있어, 컨트롤러가 서로 다른 추론 분기에서 진행 상황을 평가할 수 있다.
  3. 탐색자는 컨트롤러를 제안하고, 오프라인 데이터에 대해 평가한 뒤, 시간에 따라 연산이 어떻게 할당됐는지 보여주는 실행 트레이스를 관찰한다.

이 트레이스를 분석함으로써 탐색자는 특정 실패 모드(예: 특정 상황에서 과도한 가지치기)를 진단하고, 정확도‑비용 절충을 개선하도록 코드를 반복적으로 수정할 수 있다.


AI가 설계한 컨트롤러 내부

탐색 에이전트는 인간 직관에 얽매이지 않기 때문에, 인간 엔지니어가 절대 손코딩하지 않을 복잡하고 고도로 협조적인 규칙을 발견할 수 있다. AutoTTS가 발견한 최적 컨트롤러 중 하나인 Confidence Momentum Controller는 여러 비직관적 메커니즘을 활용해 연산을 관리한다:

1. 추세 기반 중단

  • 수작업 전략은 보통 순시 신뢰도 임계값을 넘으면 즉시 추론을 중단한다.
  • AutoTTS 에이전트는 순시 신뢰도가 일시적인 급등 때문에 오해를 일으킬 수 있음을 발견했다.
  • 해결책: 지수 이동 평균(EMA) 으로 신뢰도를 추적하고, 전체 신뢰도가 높으며 추세가 하락하지 않을 때만 중단한다.

2. 결합된 폭‑깊이 제어

  • 기존 알고리즘은 폭 확대(새 경로 추가)와 깊이 확대(기존 경로 연장)를 별개의 의사결정으로 다룬다.
  • AutoTTS는 두 행동을 폐쇄 피드백 루프로 연결하는 방식을 발견했다:
    • 현재 분기의 신뢰도가 정체되거나 감소하면 컨트롤러가 폭을 늘려(새 분기 생성)
    • 신뢰도가 꾸준히 상승하면 컨트롤러가 깊이를 늘려 가장 유망한 분기를 심화하고, 추가 폭 확대는 제한한다.

3. 적응형 자원 예산

  • 컨트롤러는 신뢰도 모멘텀(EMA 신뢰도의 변화율)에 따라 연산을 동적으로 재배분한다.
    • 높은 양의 모멘텀 → 해당 분기를 더 깊게 탐색하도록 토큰을 추가 할당
    • 음수 또는 평탄한 모멘텀 → 분기를 가지치기하거나 일시 중지하고 대안을 탐색

핵심 정리

  • AutoTTS는 TTS 전략 설계를 수동·직관 기반 프로세스에서 자동 탐색 문제로 전환한다.
  • 오프라인 리플레이 환경을 활용함으로써, 거대한 정책 공간을 과도한 연산 비용 없이 탐색할 수 있다.
  • Confidence Momentum Controller는 AI가 만든 정책이 어떻게 미세하고 고성능의 휴리스틱(추세 기반 중단, 결합된 폭‑깊이 제어, 적응형 예산)을 발견해 전통적인 수작업 방법을 능가할 수 있는지를 보여준다.

AutoTTS가 도출한 전략을 적용하면 토큰 사용량과 운영 비용을 크게 절감하면서도 모델 정확도를 유지하거나 심지어 향상시킬 수 있어, 대규모 추론 모델을 배포하는 기업에 매력적인 솔루션이 된다.

정렬 인식형 깊이 할당

모든 활성 추론 분기에 동일한 연산 예산을 할당하는 대신, 컨트롤러는 현재 주요 답변과 일치하는 분기를 동적으로 식별해 해당 분기에 우선적인 “버스트” 연산을 제공한다. 이는 합의가 형성되는 방향에 연산 예산을 집중시켜, 그 합의가 올바른지 빠르게 검증할 수 있게 한다.


실제 벤치마크에서의 비용 절감 및 정확도 향상

실험 설정

  • 평가 모델: 파라미터 수가 0.6 B~8 B인 Qwen‑3 시리즈
  • 추가 테스트 모델: 8 B 규모의 distilled DeepSeek‑R1 모델
  • 탐색 과제: 탐색 AI 에이전트는 먼저 AIME‑24 수학 추론 벤치마크에서 최적 테스트 시점 스케일링 전략을 찾도록 지정되었다
0 조회
Back to Blog

관련 글

더 보기 »