[Paper] DGPO: RL 기반 그래프 확산을 통한 신경망 아키텍처 생성

발행: 3일 전 (2026년 2월 23일 오전 01:23 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.19261v1

Overview

이 논문은 **Directed Graph Policy Optimization (DGPO)**이라는 새로운 프레임워크를 소개한다. 이 프레임워크는 강화학습(RL) 파인‑튜닝과 이산 그래프 확산을 결합하여 신경망 아키텍처를 나타내는 **directed acyclic graphs (DAGs)**를 생성한다. 에지 방향성을 명시적으로 처리함으로써—이전 그래프 확산 모델이 무시했던 부분—DGPO는 생성 과정을 고성능 아키텍처 쪽으로 유도하고, 학습된 데이터 범위를 넘어선 외삽도 가능하게 한다.

핵심 기여

Direction‑aware diffusion: 위상 정렬된 노드 순서와 위치 인코딩을 사용하여 이산 그래프 확산을 DAG에 확장하고, 데이터 흐름 의미를 보존합니다.
RL‑steered generation: 정책 그래디언트 RL을 적용해 확산 모델을 보상(예: 검증 정확도) 쪽으로 미세 조정하면서 기본 생성 분포는 그대로 유지합니다.
Transferable structural priors: NAS 벤치마크 검색 공간의 **7 %**만으로 사전 학습된 모델이 RL 미세 조정 후 거의 최적에 가까운 아키텍처를 생성할 수 있음을 보여줍니다.
Strong empirical results: NAS‑Bench‑101 및 NAS‑Bench‑201의 세 가지 작업(91.61 %, 73.49 %, 46.77 %)에서 최고 수준의 점수와 동등하거나 이를 능가합니다.
Bidirectional control experiments: 진정한 보상 기반 조정을 입증—반대 목표로 최적화하면 성능이 무작위 수준으로 붕괴됩니다.

방법론

Pre‑training a discrete graph diffusion model을 NAS 벤치마크의 무작위 DAG 대규모 풀에서 수행합니다. 확산 과정은 손상된 그래프를 유효한 아키텍처로 “디노이즈”하는 방법을 학습합니다.
Encoding directionality:
- Topological ordering은 모든 엣지가 낮은 순위 노드에서 높은 순위 노드로 향하도록 보장하여 비순환성을 강제합니다.
- Positional encodings(Transformer에서 사용되는 방식과 유사)를 노드 특징에 추가하여 확산 네트워크가 상류 노드와 하류 노드를 구분할 수 있게 합니다.
RL fine‑tuning (DGPO):
- 확산 모델을 후보 아키텍처를 샘플링하는 확률적 정책으로 취급합니다.
- 보상(예: 프록시 데이터셋에 대한 검증 정확도)을 계산합니다.
- 정책‑그라디언트 업데이트(REINFORCE with baseline)를 적용하여 높은 보상을 받는 그래프의 가능성을 높이면서 확산 사전 지식을 유지합니다.
Evaluation: 미세 조정된 모델에서 수천 개의 아키텍처를 샘플링하고, 벤치마크에서 평가한 뒤 오라클 및 기존 방법들과 비교합니다.

결과 및 발견

벤치마크	메트릭 (높을수록 좋음)	DGPO (전체 데이터)	DGPO (7 % 사전‑학습)	Oracle / 최선 알려진
NAS‑Bench‑201 (CIFAR‑10)	정확도 %	91.61	91.29 (‑0.32)	91.61
NAS‑Bench‑201 (CIFAR‑100)	정확도 %	73.49	73.20 (‑0.29)	73.49
NAS‑Bench‑201 (ImageNet‑16‑120)	정확도 %	46.77	46.44 (‑0.33)	46.77

전이 가능성: 사전‑학습 중 검색 공간의 7 %만 사용했음에도 DGPO는 전체 데이터 성능에 0.32 % 이내로 도달하여, diffusion 모델이 재사용 가능한 아키텍처 모티프를 학습함을 보여준다.
외삽: RL 미세조정 후 DGPO는 사전‑학습 모델의 성능 상한을 ~7.3 % 초과하는데, 이는 RL 단계가 원래 학습 세트에 존재하지 않았던 새로운 고품질 구조를 발견했음을 의미한다.
대조 실험: 보상이 반전될 때(즉, 모델이 정확도를 최소화하도록 학습될 때) 생성된 아키텍처는 거의 무작위 수준의 성능(~9.5 % 정확도)으로 붕괴되며, 개선이 편향된 diffusion 사전분포가 아니라 보상에 기반한 조정에 의해 이루어졌음을 확인한다.

실용적 시사점

Accelerated NAS pipelines: 가속화된 NAS 파이프라인: 개발자는 검색 공간의 작은 부분 집합에서 컴팩트한 확산 모델을 사전 학습하고, 이후 특정 하드웨어 또는 지연 시간 예산에 대해 RL로 미세 조정할 수 있어, 비용이 많이 드는 전체 학습 평가 횟수를 크게 줄일 수 있습니다.
Domain‑agnostic generative design: 도메인에 구애받지 않는 생성 설계: 방향을 인식하는 확산 프레임워크는 엣지 방향이 중요한 모든 조합 설계 문제에 재활용될 수 있습니다 (예: 데이터 흐름 파이프라인, 컴파일러 최적화 그래프, 회로 합성).
Plug‑and‑play reward functions: 플러그‑앤‑플레이 보상 함수: DGPO가 확산 모델을 정책으로 취급하기 때문에, 차별화 가능한 혹은 블랙박스 메트릭(에너지 소비, FLOPs, 지연 시간, 견고성)이라면 생성기를 재설계하지 않고도 교체할 수 있습니다.
Reduced carbon footprint: 탄소 발자국 감소: 전체 학습 실행 횟수를 줄임으로써, 조직은 대규모 NAS 캠페인의 컴퓨팅 비용과 관련 배출량을 낮출 수 있습니다.

제한 사항 및 향후 연구

대규모 탐색 공간에 대한 확장성: 실험은 NAS‑Bench‑101/201 (≤ 10⁶ 아키텍처)로 제한되었습니다. DGPO를 산업 규모 NAS(수십억 후보)로 확장하려면 계층적 diffusion 또는 메모리 효율적인 인코딩이 필요할 수 있습니다.
보상 지연: RL 미세조정은 여전히 샘플링된 아키텍처 평가에 의존하므로 비용이 많이 드는 학습 환경에서는 병목이 될 수 있습니다; 대리 예측기나 가중치 공유가 이를 완화할 수 있습니다.
DAG 외 일반화: 이 방법은 DAG를 잘 처리하지만, 실제 그래프 중 많은 경우에 사이클이 존재합니다(예: 순환 신경망). 위상 정렬 트릭을 사이클 그래프에 적용하는 것은 아직 해결되지 않은 과제입니다.
이론적 보장: 논문은 보상 조정에 대한 실증적 증거를 제시하지만, 결합된 diffusion‑RL 시스템에 대한 공식적인 수렴 또는 최적성 증명은 부족합니다.

DGPO는 강력한 생성 diffusion 모델과 신경 아키텍처 탐색에 필요한 정밀한 제어 사이의 격차를 메우며, 계산량이 많은 탐색에 빠지지 않고 AI 기반 설계를 활용하고자 하는 개발자를 위한 실용적인 도구 모음을 제공합니다.

저자

Aleksei Liuliakov
Luca Hermes
Barbara Hammer

논문 정보

arXiv ID: 2602.19261v1
카테고리: cs.LG, cs.AI, cs.NE
출판일: 2026년 2월 22일
PDF: PDF 다운로드

[Paper] DGPO: RL 기반 그래프 확산을 통한 신경망 아키텍처 생성

Overview

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] KV 바인딩을 활용한 Test-Time Training은 사실 Linear Attention이다

[Paper] Squint: 시뮬레이션-실제 로보틱스를 위한 빠른 비주얼 강화학습

[Paper] 시도와 오류로부터 학습: 반성적인 테스트 시 플래닝 for Embodied LLMs

[Paper] Untied Ulysses: 메모리 효율적인 컨텍스트 병렬 처리 via Headwise Chunking