[Paper] NNGPT: 대형 언어 모델을 활용한 AutoML 다시 생각하기

발행: (2025년 11월 25일 오후 11:10 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2511.20333v1

개요

이 논문은 NNGPT라는 오픈‑소스 AutoML 프레임워크를 소개한다. NNGPT는 대형 언어 모델(LLM)을 자체 개선 엔진으로 전환하여 신경망, 특히 컴퓨터 비전 작업을 위한 설계, 학습, 평가를 자동화한다. 모델 생성, 성능 평가, LLM 파인튜닝 사이의 루프를 닫음으로써 NNGPT는 인간 개입 없이도 실행 가능한 아키텍처 “카탈로그”를 지속적으로 확장할 수 있다.

주요 기여

  • 통합 LLM‑구동 AutoML 파이프라인: 아키텍처 합성, 하이퍼파라미터 최적화, 조기 종료/정확도 예측, 코드 인식 모델 생성을 하나의 워크플로우로 결합.
  • 자체 개선 루프: 생성된 모델을 실행하고, 그 결과를 LLM 파인튜닝에 피드백하여 신경망 설계 데이터셋을 효과적으로 성장시킴.
  • NN‑RAG (Neural‑Network Retrieval‑Augmented Generation): 큐레이션된 코퍼스에서 PyTorch 코드 블록을 검색·조합하는 모듈로, 1,289개 목표 사양에 대해 73 % 실행 가능성을 달성.
  • 극히 적은 시도만으로 경쟁력 있는 성능: 원샷 정확도 예측이 기존 탐색 기반 AutoML과 동등; HPO는 RMSE 0.60 (Optuna 0.64); 코드 인식 예측기는 RMSE 0.14 (Pearson r = 0.78).
  • 확장 가능한 생성: 이미 5,000개 이상의 검증된 모델을 생산했으며, 프레임워크가 설계 공간을 자율적으로 탐색할 수 있음을 입증.

방법론

  1. 프롬프트 기반 생성 – 단일 자연어 프롬프트를 사전 학습된 LLM(예: GPT‑4)에 입력하면 전체 PyTorch 파이프라인(데이터 전처리, 모델 아키텍처, 하이퍼파라미터)을 출력한다.
  2. 실행 및 평가 – 생성된 스크립트를 대상 데이터셋에서 엔드‑투‑엔드로 실행하고, 정확도, 학습 시간, 조기 종료 신호 등을 기록한다.
  3. 피드백 루프 – 결과를 LEMUR 데이터셋에 저장한다. LEMUR는 모델 사양과 결과를 감사된 형태로 모아둔 컬렉션이다. 이후 LLM을 이 증가하는 코퍼스에 파인튜닝하여 다음 세대 품질을 향상시킨다.
  4. 검색‑보강 합성 (NN‑RAG) – LLM이 특정 코드 블록(예: 커스텀 residual unit)을 생성해야 할 때, 먼저 LEMUR 코퍼스에서 유사하고 검증된 스니펫을 검색한 뒤 현재 컨텍스트에 맞게 변형한다.
  5. 보조 예측기 – LEMUR 위에서 학습된 경량 회귀 모델이 생성된 코드만으로 최종 정확도 또는 조기 종료 시점을 예측한다. 이를 통해 비용이 많이 드는 학습 전에 낮은 가능성의 후보를 걸러낼 수 있다.
  6. 강화 학습 – 전체 파이프라인을 강화학습 환경으로 간주하고, 보상은 검증 성능으로 설정한다. 정책 업데이트를 통해 LLM이 고수익 설계로 점점 더 유도된다.

결과 및 발견

구성 요소지표NNGPT 성능베이스라인 / 기존 연구
NN‑RAG 실행 가능성오류 없이 실행되는 스크립트 비율73 % (1,289개 목표)일반 LLM 생성 < 50 %
하이퍼파라미터 최적화 (HPO)예측 vs. 실제 성능 RMSE0.60Optuna 0.64
코드 인식 정확도 예측기RMSE / Pearson r0.14 / 0.78해당 없음 (최초)
원샷 예측 vs. 탐색 기반 AutoML최종 검증 정확도비슷함 (다중 시도 탐색 대비 1 % 이내)수십 번의 시도 필요
전체 모델 생성검증된 모델 수>5 000

이 수치는 NNGPT가 전통적인 AutoML 도구보다 훨씬 적은 연산 사이클로 사용 가능한 고성능 모델을 생성할 수 있으며, 실행마다 학습하면서 점차 개선된다는 것을 보여준다.

실용적 함의

  • 빠른 프로토타이핑 – 개발자는 새로운 비전 데이터셋에 대해 단일 프롬프트만으로 바로 실행 가능한 PyTorch 모델을 얻을 수 있어, 수주에 걸리던 수동 아키텍처 탐색을 크게 단축한다.
  • 비용 효율적인 AutoML – 성능을 조기에 예측하고 품질이 낮은 후보를 제거함으로써 GPU 사용 시간을 크게 절감할 수 있어, 소규모 팀이나 엣지 디바이스 개발에도 AutoML을 적용하기 용이하다.
  • 지속적인 개선 – 사내에서 생성된 모델이 늘어날수록 LLM이 자체 데이터를 기반으로 파인튜닝되어, 기업 고유의 데이터 분포에 최적화된 맞춤형 AutoML 엔진이 된다.
  • 플러그‑인 방식 통합 – PyTorch 어댑터는 프레임워크에 구애받지 않으며, 동일 파이프라인을 TensorFlow나 JAX로도 최소한의 수정만으로 교체 가능해 기존 코드베이스에 손쉽게 도입할 수 있다.
  • 오픈소스 생태계 – 코드, 프롬프트, 체크포인트가 공개될 예정이므로 커뮤니티가 NN‑RAG를 확장하거나 새로운 검색 코퍼스를 기여하고, 비전 외 분야(NLP, 강화학습 등)로 시스템을 특화시킬 수 있다.

제한점 및 향후 과제

  • 도메인 한정 – 현재 실험은 컴퓨터 비전 작업에만 국한되어 있으며, 다른 모달리티로 확장하려면 새로운 검색 코퍼스와 프롬프트 설계가 필요하다.
  • LLM 규모 의존성 – 고품질 생성은 여전히 대형 상용 모델(GPT‑4 등)에 의존하며, 작은 오픈 모델에서는 성능이 저하될 수 있다.
  • 실행 실패 – NN‑RAG가 실행 가능성을 73 %까지 끌어올렸지만, 여전히 1/4 정도의 스크립트가 충돌한다. 이는 코드 정제 혹은 정적 분석 기술 개선이 필요함을 의미한다.
  • 피드백 루프 확장성 – LEMUR 데이터셋이 지속적으로 성장함에 따라 LLM 파인튜닝 비용이 급증할 수 있다. 증분 학습이나 어댑터 기반 훈련 전략이 제안된다.
  • 강화학습 안정성 – 현재 RL 구성 요소는 초기 단계이며 변동성이 크다. 향후 보다 안정적인 정책 그래디언트 방법과 커리큘럼 학습을 탐색할 예정이다.

저자들은 멀티모달 데이터셋으로 코퍼스를 확장하고, 오픈소스 LLM을 실험하며, 정적 코드 검사기를 통합해 실행 가능성 상한을 높이는 방향으로 위 문제들을 해결할 계획이다.

저자

  • Roman Kochnev
  • Waleed Khalid
  • Tolgay Atinc Uzun
  • Xi Zhang
  • Yashkumar Sanjaybhai Dhameliya
  • Furui Qin
  • Chandini Vysyaraju
  • Raghuvir Duvvuri
  • Avi Goyal
  • Dmitry Ignatov
  • Radu Timofte

논문 정보

  • arXiv ID: 2511.20333v1
  • 분류: cs.AI, cs.LG, cs.NE
  • 발표일: 2025년 11월 25일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…