[Paper] LabelFusion: LLM과 Transformer 분류기의 융합 학습을 통한 강인한 텍스트 분류

발행: (2025년 12월 12일 오전 01:39 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.10793v1

개요

이 논문은 LabelFusion이라는 플러그‑앤‑플레이 앙상블을 소개한다. 이 앙상블은 기존 트랜스포머 분류기(예: RoBERTa)와 하나 이상의 대형 언어 모델(LLM)인 GPT‑4, Gemini, DeepSeek 등을 결합하여 학습한다. 두 신호 흐름을 융합함으로써 시스템은 더 높은 품질의 텍스트 분류 예측을 제공하면서 사용자가 정확도, 지연 시간, API 비용을 균형 있게 조절할 수 있게 하여, 프로덕션 수준 NLP 파이프라인에 매력적인 선택이 된다.

주요 기여

  • AutoFusionClassifier API – 전체 융합 파이프라인을 엔드‑투‑엔드로 학습시키는 고수준, 제로‑컨피그 진입점.
  • Hybrid representation – 트랜스포머의 컨텍스트 임베딩과 LLM이 생성한 클래스별 점수(구조화된 프롬프트를 통해 획득)를 연결한다.
  • FusionMLP – 두 소스의 최적 가중치를 학습하는 경량 다층 퍼셉트론으로, 수작업 휴리스틱에 의존하지 않는다.
  • Cost‑aware inference – 프레임워크는 “고정밀”(LLM 사용) 모드와 “저지연/저비용”(트랜스포머만 사용) 모드 사이를 동적으로 전환할 수 있다.
  • 강력한 실험 결과 – AG News에서 92.4 % 정확도, 10‑클래스 Reuters‑21578 분할에서 92.3 % 정확도를 달성했으며, 단일 트랜스포머 및 LLM 베이스라인 모두를 능가한다.

방법론

  1. Backbone Transformer – 표준 파인‑튜닝된 트랜스포머(예: RoBERTa‑base)가 입력 텍스트를 처리하고 풀링된 임베딩 벡터를 출력한다.
  2. LLM Prompting – 각 목표 클래스마다 간결한 프롬프트(예: “이 기사 내용이 스포츠에 관한 것인가? Yes/No 로 답하라”)를 선택한 LLM에 전달한다. LLM의 텍스트 응답을 파싱해 클래스별 신뢰 점수로 변환한다.
  3. Feature Fusion – 트랜스포머 임베딩(≈768‑차원)과 LLM 점수 벡터(클래스당 하나의 항목)를 연결한다.
  4. FusionMLP – 얕은 MLP(보통 2–3층, ReLU 활성화)를 통해 융합된 벡터를 받아 최종 클래스 확률을 출력한다. 전체 파이프라인(트랜스포머, 프롬프트 로직(학습 시 차별 가능한 프록시로 처리), FusionMLP)은 교차 엔트로피 손실을 사용해 공동 최적화된다.
  5. Training & Inference Modes – 학습 단계에서는 LLM 점수를 “teacher‑model”로 시뮬레이션해 LLM 동작을 모방함으로써 전 과정을 차별 가능하게 만든다. 추론 시에는 실제 LLM 호출을 요청별로 켜고 끌 수 있어 비용‑인식 트레이드오프가 가능하다.

결과 및 고찰

DatasetBaseline RoBERTaBaseline LLM (zero‑shot)LabelFusion (full)
AG News (4‑class)90.1 %88.5 %92.4 %
Reuters‑21578 (10‑class)90.7 %89.2 %92.3 %
  • 견고성: 개별 구성 요소가 약화될 때도(LabelFusion은 LLM이 제한되거나 트랜스포머가 충분히 학습되지 않은 경우) 성능을 유지한다.
  • 지연시간/비용 트레이드오프: “빠른” 모드(트랜스포머만 사용)에서는 정확도가 약 1 %만 감소하지만 지연시간이 절반으로 줄고 API 비용이 사라진다.
  • 소거 실험: LLM 점수를 제거하면 정확도가 약 1.8 % 감소하고, 트랜스포머 임베딩을 제거하면 약 2.2 % 감소하여 두 요소가 상보적인 강점을 제공함을 확인한다.

실용적 함의

  • 프로덕션용 플러그‑앤‑플레이 – 개발자는 단일 모델 분류기를 AutoFusionClassifier로 교체함으로써 데이터 파이프라인을 재설계하지 않고도 즉시 성능 향상을 얻을 수 있다.
  • 동적 비용 제어 – SaaS 플랫폼은 각 요청마다 LLM을 호출할지 결정하는 “예산” 노브를 제공해 요청별 비용 최적화를 가능하게 한다.
  • 다중 라벨 확장 – 동일한 융합 로직이 다중 라벨 작업(예: 뉴스 기사에 여러 주제 태깅)에도 적용돼 추천 엔진 및 콘텐츠 모더레이션에 적합하다.
  • 도메인 적응 – LLM이 세계 지식을 제공하므로, 새로운 기술 용어와 같은 최신 어휘에 대해 트랜스포머를 대규모 재학습 없이도 빠르게 적응할 수 있다.

한계 및 향후 연구

  • 프롬프트 엔지니어링 부담 – 고품질 클래스별 프롬프트를 만드는 데 여전히 수작업이 필요하며, 자동 프롬프트 생성은 아직 연구 단계이다.
  • LLM 지연시간 변동성 – 실시간 LLM 호출은 특히 부하가 큰 상황에서 예측하기 어려우며, 논문에서는 캐싱 전략을 제안하지만 충분히 평가하지는 않았다.
  • 수백 개 클래스에 대한 확장성 – 클래스당 점수를 연결하는 방식은 라벨 수가 매우 많아질 경우 메모리 사용량이 크게 증가한다. 향후에는 계층적 또는 희소 융합 메커니즘을 탐색할 필요가 있다.
  • 차별 가능한 LLM 프록시 – 학습 시 사용되는 프록시는 LLM 동작을 근사하는데, 실제 LLM 응답과의 차이가 최종 성능에 영향을 줄 수 있다. 저자들은 이를 강화학습 기반 미세조정으로 해소할 계획이다.

저자

  • Michael Schlee
  • Christoph Weisser
  • Timo Kivimäki
  • Melchizedek Mashiku
  • Benjamin Saefken

논문 정보

  • arXiv ID: 2512.10793v1
  • Categories: cs.CL, cs.AI
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »