[Paper] LLM 회귀와 잠재적 반복 상태 헤드

발행: (2026년 4월 2일 오전 02:50 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2604.01206v1

개요

이 논문은 RELISH (REgression with a Latent Iterative State Head)를 소개한다. 이는 동결된 대형 언어 모델(LLMs)이 숫자를 텍스트로 변환하거나 다수의 생성 샘플을 평균 내지 않고도 직접 수치 예측을 출력할 수 있게 하는 경량 애드온이다. 토큰 임베딩에 대한 교차‑어텐션을 통해 컴팩트한 잠재 상태를 반복적으로 정제함으로써, RELISH는 몇 백만 개의 파라미터만 추가하면서 최첨단 회귀 성능을 달성한다.

주요 기여

  • 새로운 아키텍처: 다중 어텐션 단계에 걸쳐 작은 학습 벡터를 반복적으로 정제하고, 이를 간단한 선형 회귀기를 통해 스칼라로 매핑하는 잠재적 반복 상태 헤드.
  • 파라미터 효율성: 학습 가능한 파라미터는 340만370만 개에 불과하며(동결된 LLM의 약 0.010.04 %), LoRA 스타일 어댑터(≈0.26–0.42 %)보다 크게 작습니다.
  • 폭넓은 실증 검증: 5개의 회귀 벤치마크, 4개의 LLM 백본(예: LLaMA, Falcon) 및 두 가지 학습 방식(전체 모델 파인튜닝 vs. 동결된 LLM + 헤드)에서 테스트되었습니다.
  • 일관된 우수성: 자동회귀 디코딩, 회귀 인식 추론, 기존 예측 헤드 방식 등 세 가지 주요 LLM 회귀 패밀리를 모두 능가합니다.
  • 단순성 및 호환성: 동결된 모든 트랜스포머 인코더/디코더와 호환되며, 기본 LLM에 대한 수정이 전혀 필요하지 않습니다.

방법론

  1. LLM 고정 – 기본 모델의 가중치는 그대로 두어 언어 이해 능력을 보존합니다.
  2. 토큰‑레벨 추출 – 입력 텍스트를 토큰화하고 LLM에 통과시켜 토큰당 하나씩 숨겨진 상태 시퀀스를 얻습니다.
  3. 반복적 잠재 상태 – 작은 학습 가능한 벡터(“잠재 상태”)를 초기화합니다(예: 0). T 번의 반복 동안, 이 벡터는 교차‑어텐션을 통해 토큰 임베딩에 주목하며 매 단계 자신을 업데이트합니다. 이는 전체 텍스트의 정보를 점진적으로 통합하는 추론 루프를 모방합니다.
  4. 선형 회귀 헤드 – 최종 반복 후 정제된 잠재 상태를 단일 선형 레이어에 전달하여 스칼라 예측값(예: 평점, 가격, 감성 점수)을 출력합니다.
  5. 학습 – 잠재 상태 파라미터와 선형 헤드만을 표준 회귀 손실(MSE 또는 MAE)로 최적화합니다. LLM이 고정되어 있기 때문에 학습이 빠르고 메모리 사용도 적습니다.

전체 파이프라인은 다음과 같이 시각화할 수 있습니다:

Input Text → Frozen LLM → Token embeddings
          ↘︎  Iterative cross‑attention (latent state) ↘︎
                     Refined latent vector → Linear regressor → Scalar output

결과 및 발견

데이터셋 (5)백본 (4)RELISH vs. 최선 베이스라인
회귀형 작업 (예: 평점 예측, 가독성 점수)LLaMA‑7B, LLaMA‑13B, Falcon‑7B, Mistral‑7B+3–7 % 낮은 MAE / 높은 R²
파라미터 오버헤드3.4–3.7 M≈0.03 % 모델 크기 대비
훈련 시간 (epoch당)LoRA 기반 어댑터 대비 ~30 %더 빠른 수렴 (2–3 × 적은 스텝)

핵심 요약

  • 반복 정제 단계는 단일 샷 어텐션이나 단순 풀링보다 잠재 벡터와 수치 목표 간의 정렬을 일관되게 더 잘 수행합니다.
  • LLM을 동결한 상태에서도 RELISH는 전체 모델을 미세 조정하는 방법들의 성능과 일치하거나 능가하여 잘 설계된 헤드의 힘을 강조합니다.
  • 이 접근법은 우아하게 확장됩니다: 더 큰 백본은 약간의 향상을 제공하지만 헤드 크기는 일정하게 유지됩니다.

실용적인 시사점

  • Rapid prototyping of regression services – 사전 학습된 LLM을 배포하고(e.g., API를 통해) RELISH 헤드를 연결하여 전체 모델을 비용 많이 드는 파인튜닝 없이 점수, 가격, 위험 지표 등을 예측합니다.
  • Edge and low‑resource scenarios – 추가 파라미터가 몇 메가바이트에 불과하므로, RELISH는 제한된 저장 용량을 가진 디바이스(예: 모바일, IoT)에서 고정된 LLM과 함께 제공될 수 있습니다.
  • Multi‑task platforms – 하나의 고정된 LLM에 서로 다른 RELISH 헤드를 교체함으로써 다수의 하위 회귀 작업을 처리할 수 있어 모듈형 AI 스택을 구현합니다.
  • Cost‑effective MLOps – 학습 시간과 GPU 메모리가 크게 감소하여, 작은 팀도 연속적인 모델 업데이트(예: 일일 가격 예측)를 실현할 수 있습니다.
  • Compatibility with existing pipelines – 이 헤드는 클라우드 제공업체에 호스팅된 모델을 포함해 모든 트랜스포머 기반 LLM에 추가할 수 있으며, 별도의 토크나이저나 생성 루프가 필요하지 않습니다.

제한 사항 및 향후 작업

  • Frozen LLM 의존성 – RELISH는 기본 LLM에 존재하는 편향이나 지식 격차를 그대로 물려받습니다; 기본 모델이 도메인‑특화 이해가 부족하면 헤드가 완전히 보완하지 못합니다.
  • 반복 단계 수 – 정제 반복 횟수는 하이퍼‑파라미터이며, 너무 적으면 토큰 정보를 충분히 활용하지 못하고, 너무 많으면 지연(latency)이 증가합니다.
  • Scalar‑only 출력 – 현재 설계는 단일값 회귀를 목표로 하며, 벡터값 출력(예: 다차원 예측)으로 확장하려면 아키텍처 조정이 필요합니다.
  • 평가 범위 – 실험은 표준 회귀 벤치마크에 초점을 맞추고 있으며, 실제 세계의 잡음이 섞인 데이터(예: 시계열, 스트리밍 로그)는 아직 테스트되지 않았습니다.

저자들이 제시한 향후 연구 방향으로는 적응형 반복 횟수 탐색, frozen LLM을 위한 도메인‑적응 어댑터 통합, 그리고 latent iterative head를 분류나 구조화된 예측 작업에 적용하는 것이 포함됩니다.

저자

  • Yiheng Su
  • Matthew Lease

논문 정보

  • arXiv ID: 2604.01206v1
  • 카테고리: cs.CL, cs.LG
  • 출판일: 2026년 4월 1일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »