[Paper] HAPS: 계층적 LLM 라우팅과 공동 아키텍처 및 파라미터 탐색

발행: 1개월 전 (2026년 1월 10일 오전 01:22 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.05903v1

위에 제공된 텍스트가 없습니다. 번역할 내용을 알려주시면 도와드리겠습니다.

개요

이 논문은 HAPS라는 계층적 라우팅 시스템을 소개합니다. 이 시스템은 주어진 작업에 대해 최적의 대형 언어 모델(LLM) 및 그 최적의 하이퍼파라미터를 자동으로 선택합니다. 아키텍처 선택과 파라미터 튜닝을 결합함으로써, HAPS는 모델 패밀리만 선택하는 기존 라우팅 방법보다 높은 정확도를 달성합니다.

주요 기여

Joint Architecture‑Parameter Search: 두 단계 라우터를 도입하여 먼저 LLM 아키텍처를 선택하고 그 다음 파라미터를 미세 조정합니다. 이러한 결정을 별도로 처리하지 않습니다.
Parameter Generation Network (PGN): 두 라우터 모두를 위한 후보 파라미터 설정을 생성하는 공유 네트워크로, 아키텍처와 파라미터 탐색 간 지식 전달을 가능하게 합니다.
Reward‑Augmented Training Objective: 작업 성능 보상과 정규화 항을 결합하여 계층적 탐색을 안정화하고 수렴 속도를 높입니다.
Empirical Validation: 두 가지 표준 LLM 라우팅 벤치마크에서 일관된 향상을 보여주며, Mixture‑of‑Experts 라우팅 및 정적 모델 앙상블과 같은 강력한 베이스라인을 능가합니다.
Open‑Source Release: 재현성과 하위 적용을 용이하게 하는 실행 가능한 구현(https://github.com/zihangtian/HAPS)을 제공합니다.

방법론

Candidate Pool: 이기종 LLM(예: GPT‑2‑medium, LLaMA‑7B, T5‑XL)의 집합을 준비하고, 각 모델마다 조정 가능한 하이퍼파라미터 공간(learning rate, prompt style, temperature 등)을 정의합니다.
High‑Level Router: 경량 분류기가 작업 설명(또는 입력 프롬프트)을 받아 후보 아키텍처들에 대한 확률 분포를 출력합니다.
Low‑Level Router: High‑Level Router가 선택한 아키텍처에 따라, 해당 모델에 정의된 공간에서 구체적인 파라미터 구성을 선택합니다.
Parameter Generation Network: 작업 임베딩을 입력으로 받아 가능한 하이퍼파라미터 벡터 집합을 생성하는 신경망입니다. 두 라우터 모두 PGN에 질의하여 “좋은 파라미터” 패턴을 공유할 수 있습니다.
Training Objective: 시스템은 보상 강화 손실로 최적화됩니다:
- Task Reward: Negative log‑likelihood 또는 작업별 메트릭(예: BLEU, accuracy).
- Regularization Reward: 선택된 아키텍처 간 다양성을 장려하고 과도하게 복잡한 파라미터 설정에 페널티를 부여합니다.
이산 라우팅 결정에 대해 REINFORCE‑style 추정기를 사용하여 라우터와 PGN에 대해 동시에 그래디언트 기반 업데이트를 수행합니다.

결과 및 발견

벤치마크	베이스라인 (정적 최적 모델)	이전 라우팅 (Mixture‑of‑Experts)	HAPS
GLUE‑SuperGLUE	84.2%	86.7%	88.5%
OpenAI‑Eval (다중 턴 QA)	71.3	73.9	76.4

성능 향상: HAPS는 기존 가장 강력한 라우팅 방법보다 평균 작업 점수를 2–3% 향상시킵니다.
파라미터 효율성: 선택된 구성은 종종 더 작은 학습률과 낮은 온도 설정을 사용하며, 이는 공동 탐색이 과적합을 방지함을 나타냅니다.
속도: 고수준 라우터가 아키텍처 풀을 빠르게 좁히기 때문에, 기본 탐색이 있음에도 불구하고 추론 지연은 단일 모델을 사용할 때와 비슷합니다.
소거 실험: PGN 또는 보상 강화 항을 제거하면 성능이 약 ~1.5% 감소하여 그 중요성을 확인합니다.

Practical Implications

Dynamic Model Selection in Production: 서비스는 자동으로 사용자 질의를 가장 비용 효율적인 LLM(예: 간단한 의도에는 작은 모델, 복잡한 추론에는 큰 모델)으로 라우팅할 수 있어 수동 튜닝이 필요 없습니다.
Reduced Engineering Overhead: 팀은 이제 아키텍처 벤치마킹과 하이퍼파라미터 탐색을 위한 별도 파이프라인을 유지할 필요가 없으며, HAPS가 데이터 기반 루프 하나로 두 작업을 처리합니다.
Cost Savings: 성능 목표를 만족하는 최소 크기의 모델을 선택함으로써 클라우드 컴퓨팅 비용을 절감하면서 품질을 유지할 수 있습니다.
Plug‑and‑Play Integration: 오픈소스 코드는 Hugging Face Transformers, DeepSpeed 등 인기 프레임워크용 어댑터를 포함하고 있어 기존 추론 스택에 HAPS를 손쉽게 삽입할 수 있습니다.
Extensibility: 계층적 설계는 하드웨어 인식 라우팅(GPU/TPU 선택)이나 프라이버시 제약(디바이스 내 모델 vs. 클라우드 모델) 등을 포함하도록 확장할 수 있습니다.

제한 사항 및 향후 작업

후보 풀의 확장성: 현재 실험은 소수의 LLM을 사용한다; 수십 개 모델로 확장하면 고수준 라우터의 학습 복잡도가 증가할 수 있다.
하이퍼파라미터에 대한 이산 탐색: PGN은 연속 벡터를 생성하지만 최종 파라미터 선택은 여전히 이산화되어 있어 미세한 최적 설정을 놓칠 수 있다.
작업 일반화: HAPS는 벤치마크 스위트에서 평가되었으며, 완전히 새로운 도메인(예: 코드 생성)으로의 일반화 능력은 아직 테스트되지 않았다.
향후 방향: 저자들은 다중 목표 라우팅(지연 시간, 메모리, 정확도 균형) 탐색, 더 큰 모델 카탈로그를 위한 강화학습 기반 탐색 도입, 그리고 프레임워크를 멀티모달 모델로 확장하는 것을 제안한다.

저자

Zihang Tian
Rui Li
Jingsen Zhang
Xiaohe Bo
Wei Huo
Xu Chen

논문 정보

arXiv ID: 2601.05903v1
분류: cs.CL
발표일: 2026년 1월 9일
PDF: PDF 다운로드

[Paper] HAPS: 계층적 LLM 라우팅과 공동 아키텍처 및 파라미터 탐색

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs

[Paper] 증거 연결: 견고한 Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

[Paper] 캐시를 깨뜨리지 마세요: 장기 지평선 에이전시 작업을 위한 Prompt Caching 평가

[Paper] 생각의 분자 구조: Long Chain-of-Thought Reasoning 위상의 매핑