[Paper] HAPS: 계층적 LLM 라우팅과 공동 아키텍처 및 파라미터 탐색

발행: (2026년 1월 10일 오전 01:22 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.05903v1

위에 제공된 텍스트가 없습니다. 번역할 내용을 알려주시면 도와드리겠습니다.

개요

이 논문은 HAPS라는 계층적 라우팅 시스템을 소개합니다. 이 시스템은 주어진 작업에 대해 최적의 대형 언어 모델(LLM) 그 최적의 하이퍼파라미터를 자동으로 선택합니다. 아키텍처 선택과 파라미터 튜닝을 결합함으로써, HAPS는 모델 패밀리만 선택하는 기존 라우팅 방법보다 높은 정확도를 달성합니다.

주요 기여

  • Joint Architecture‑Parameter Search: 두 단계 라우터를 도입하여 먼저 LLM 아키텍처를 선택하고 그 다음 파라미터를 미세 조정합니다. 이러한 결정을 별도로 처리하지 않습니다.
  • Parameter Generation Network (PGN): 두 라우터 모두를 위한 후보 파라미터 설정을 생성하는 공유 네트워크로, 아키텍처와 파라미터 탐색 간 지식 전달을 가능하게 합니다.
  • Reward‑Augmented Training Objective: 작업 성능 보상과 정규화 항을 결합하여 계층적 탐색을 안정화하고 수렴 속도를 높입니다.
  • Empirical Validation: 두 가지 표준 LLM 라우팅 벤치마크에서 일관된 향상을 보여주며, Mixture‑of‑Experts 라우팅 및 정적 모델 앙상블과 같은 강력한 베이스라인을 능가합니다.
  • Open‑Source Release: 재현성과 하위 적용을 용이하게 하는 실행 가능한 구현(https://github.com/zihangtian/HAPS)을 제공합니다.

방법론

  1. Candidate Pool: 이기종 LLM(예: GPT‑2‑medium, LLaMA‑7B, T5‑XL)의 집합을 준비하고, 각 모델마다 조정 가능한 하이퍼파라미터 공간(learning rate, prompt style, temperature 등)을 정의합니다.

  2. High‑Level Router: 경량 분류기가 작업 설명(또는 입력 프롬프트)을 받아 후보 아키텍처들에 대한 확률 분포를 출력합니다.

  3. Low‑Level Router: High‑Level Router가 선택한 아키텍처에 따라, 해당 모델에 정의된 공간에서 구체적인 파라미터 구성을 선택합니다.

  4. Parameter Generation Network: 작업 임베딩을 입력으로 받아 가능한 하이퍼파라미터 벡터 집합을 생성하는 신경망입니다. 두 라우터 모두 PGN에 질의하여 “좋은 파라미터” 패턴을 공유할 수 있습니다.

  5. Training Objective: 시스템은 보상 강화 손실로 최적화됩니다:

    • Task Reward: Negative log‑likelihood 또는 작업별 메트릭(예: BLEU, accuracy).
    • Regularization Reward: 선택된 아키텍처 간 다양성을 장려하고 과도하게 복잡한 파라미터 설정에 페널티를 부여합니다.

    이산 라우팅 결정에 대해 REINFORCE‑style 추정기를 사용하여 라우터와 PGN에 대해 동시에 그래디언트 기반 업데이트를 수행합니다.

결과 및 발견

벤치마크베이스라인 (정적 최적 모델)이전 라우팅 (Mixture‑of‑Experts)HAPS
GLUE‑SuperGLUE84.2%86.7%88.5%
OpenAI‑Eval (다중 턴 QA)71.373.976.4
  • 성능 향상: HAPS는 기존 가장 강력한 라우팅 방법보다 평균 작업 점수를 2–3% 향상시킵니다.
  • 파라미터 효율성: 선택된 구성은 종종 더 작은 학습률과 낮은 온도 설정을 사용하며, 이는 공동 탐색이 과적합을 방지함을 나타냅니다.
  • 속도: 고수준 라우터가 아키텍처 풀을 빠르게 좁히기 때문에, 기본 탐색이 있음에도 불구하고 추론 지연은 단일 모델을 사용할 때와 비슷합니다.
  • 소거 실험: PGN 또는 보상 강화 항을 제거하면 성능이 약 ~1.5% 감소하여 그 중요성을 확인합니다.

Practical Implications

  • Dynamic Model Selection in Production: 서비스는 자동으로 사용자 질의를 가장 비용 효율적인 LLM(예: 간단한 의도에는 작은 모델, 복잡한 추론에는 큰 모델)으로 라우팅할 수 있어 수동 튜닝이 필요 없습니다.
  • Reduced Engineering Overhead: 팀은 이제 아키텍처 벤치마킹과 하이퍼파라미터 탐색을 위한 별도 파이프라인을 유지할 필요가 없으며, HAPS가 데이터 기반 루프 하나로 두 작업을 처리합니다.
  • Cost Savings: 성능 목표를 만족하는 최소 크기의 모델을 선택함으로써 클라우드 컴퓨팅 비용을 절감하면서 품질을 유지할 수 있습니다.
  • Plug‑and‑Play Integration: 오픈소스 코드는 Hugging Face Transformers, DeepSpeed 등 인기 프레임워크용 어댑터를 포함하고 있어 기존 추론 스택에 HAPS를 손쉽게 삽입할 수 있습니다.
  • Extensibility: 계층적 설계는 하드웨어 인식 라우팅(GPU/TPU 선택)이나 프라이버시 제약(디바이스 내 모델 vs. 클라우드 모델) 등을 포함하도록 확장할 수 있습니다.

제한 사항 및 향후 작업

  • 후보 풀의 확장성: 현재 실험은 소수의 LLM을 사용한다; 수십 개 모델로 확장하면 고수준 라우터의 학습 복잡도가 증가할 수 있다.
  • 하이퍼파라미터에 대한 이산 탐색: PGN은 연속 벡터를 생성하지만 최종 파라미터 선택은 여전히 이산화되어 있어 미세한 최적 설정을 놓칠 수 있다.
  • 작업 일반화: HAPS는 벤치마크 스위트에서 평가되었으며, 완전히 새로운 도메인(예: 코드 생성)으로의 일반화 능력은 아직 테스트되지 않았다.
  • 향후 방향: 저자들은 다중 목표 라우팅(지연 시간, 메모리, 정확도 균형) 탐색, 더 큰 모델 카탈로그를 위한 강화학습 기반 탐색 도입, 그리고 프레임워크를 멀티모달 모델로 확장하는 것을 제안한다.

저자

  • Zihang Tian
  • Rui Li
  • Jingsen Zhang
  • Xiaohe Bo
  • Wei Huo
  • Xu Chen

논문 정보

  • arXiv ID: 2601.05903v1
  • 분류: cs.CL
  • 발표일: 2026년 1월 9일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...