[Paper] FLEX: FPGA-CPU 시너지 활용을 통한 혼합 셀 높이 Legalization 가속

발행: 2개월 전 (2025년 12월 4일 오후 04:20 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2512.04527v1

Overview

이 논문은 FLEX라는 하이브리드 FPGA‑CPU 가속기를 소개한다. FLEX는 현대 칩의 물리 설계 자동화에서 핵심 단계인 혼합‑셀‑높이 합법화(mixed‑cell‑height legalization)를 가속화한다. FPGA와 CPU 사이에 작업을 지능적으로 분할하고 새로운 다중‑입자 파이프라인을 적용함으로써, FLEX는 주문‑규모 성능 향상을 제공하면서 배치 품질도 향상시킨다.

Key Contributions

Hybrid Task Partitioning: 합법화에서 가장 병렬화가 가능한 부분을 FPGA에 할당하고, 제어 흐름이 무거운 작업은 CPU에서 수행하여 각 플랫폼의 강점을 활용한다.
Multi‑Granularity Pipelining: 거시‑레벨(매크로)과 미세‑레벨(셀) 두 가지 입자에서 동작하여 “최적 배치 찾기”(FOP) 단계의 속도를 크게 높인다.
Optimized Cell‑Shifting Engine: 파이프라인에 완벽히 맞춰 설계된 맞춤형 FPGA 엔진으로, 계산 집약적인 셀‑시프팅 단계를 최소 오버헤드로 처리한다.
Performance Gains: 최신 CPU‑GPU 합법화기 대비 최대 18.3× 속도 향상 및 멀티‑스레드 CPU 합법화기 대비 5.4× 향상을 달성하고, 합법화 품질은 4 % 개선(최고 GPU 기준 1 % 개선)한다.
Scalability: 설계 규모가 커져도 속도 향상이 유지되며, 문제 크기가 증가함에 따라 스케일링이 잘 된다.

Methodology

Problem Decomposition – 합법화 흐름을 세 개의 논리 단계로 나눈다:
a. 전처리 및 종속성 분석
b. FOP (합법적인 위치 탐색)
c. 셀 시프팅 (배치 조정)
Task Assignment –
- CPU는 전처리, 전역 라우팅 제약, 그리고 조정 로직을 담당한다.
- FPGA는 고도로 병렬화된 FOP 탐색과 셀‑시프팅 커널을 실행한다.
Multi‑Granularity Pipeline –
- Coarse‑Grain Stage: 동일 높이 셀 클러스터와 같은 셀 그룹을 처리하여 비실현 영역을 빠르게 제거한다.
- Fine‑Grain Stage: 살아남은 후보 윈도우 내에서 개별 셀의 배치를 정밀하게 다듬는다.
  파이프라인은 이러한 단계를 겹쳐서 수행한다. 즉, FPGA가 한 배치에 대해 Fine‑Grain 데이터를 처리하는 동안 CPU는 다음 배치의 Coarse‑Grain 정보를 준비한다.
FPGA Design Optimizations – 셀 시프팅 알고리즘의 접근 패턴에 맞게 맞춤형 데이터 경로와 온‑칩 메모리 버퍼를 조정하여 지연 시간을 줄이고 파이프라인 정지를 방지한다.
Integration & Synchronization – 경량 호스트‑사이드 드라이버가 PCIe를 통해 데이터 이동을 조정하고, 이중 버퍼링을 사용해 전송 비용을 숨긴다.

Results & Findings

Baseline	Speedup	Quality Δ (Legalization Cost)
CPU‑GPU legalizer (state‑of‑the‑art)	18.3×	+4 % (lower cost)
Multi‑threaded CPU legalizer	5.4×	+1 %
Scalability test (design size ↑)	Speedup remains > 4× up to 2× larger benchmarks	Quality improvement stays within 1–4 %

Key takeaways:

FPGA가 대부분의 연산 집약적 탐색을 담당함으로써 이전에 직렬이던 병목을 대규모 병렬 연산으로 전환한다.
파이프라인이 유휴 시간을 없애 CPU와 FPGA 자원을 거의 연속적으로 활용한다.
Fine‑Grain 단계가 시간 압박 없이 더 많은 후보 위치를 탐색할 수 있어 합법화 품질이 향상된다.

Practical Implications

Faster Tape‑out Cycles: 설계 팀은 물리 설계 검증 기간을 단축시켜 주어진 프로젝트 일정 내에 더 많은 반복 최적화를 수행할 수 있다.
Cost‑Effective Acceleration: GPU 클러스터에 비해 FPGA‑CPU 보드(예: Xilinx Alveo 또는 Intel Agilex)는 와트당 성능이 동등하거나 더 우수해 팹‑리스 스타트업 및 중견 기업에 매력적이다.
Integration into Existing EDA Flows: FLEX의 호스트‑사이드 API는 전형적인 CPU‑전용 합법화 호출과 동일하므로 툴 벤더가 최소한의 코드 변경으로 가속기를 바로 적용할 수 있다.
Potential for Cloud‑Based Services: 이질적인 클라우드 인스턴스(CPU + FPGA)에 잘 맞는 모듈식 작업 분할은 온‑디맨드 합법화‑as‑a‑service 제공의 문을 연다.
Extensibility to Other Placement Tasks: 다중‑입자 파이프라인 개념은 타이밍‑구동 배치, 혼잡 분석, 혹은 포스트‑실리콘 플로어플래닝 등 유사한 탐색‑정제 패턴이 나타나는 작업에도 재사용될 수 있다.

Limitations & Future Work

FPGA Resource Constraints: 매우 큰 설계는 온‑칩 메모리를 초과할 수 있어 추가 오프‑칩 버퍼링이 필요하고, 이는 일부 속도 향상을 감소시킬 수 있다.
Portability: 현재 구현은 특정 FPGA 패밀리를 목표로 하며, 다른 벤더로의 이식은 맞춤형 커널의 비트 수준 재설계가 필요할 수 있다.
Dynamic Workloads: 정적 파티셔닝은 비교적 안정적인 작업 부하를 전제로 하며, 고도로 불규칙한 설계에 대한 적응형 스케줄링은 아직 미해결 과제이다.
Future Directions: 저자들은 다중 FPGA에 걸친 계층적 파티셔닝, 머신러닝 기반 후보 제거, 그리고 혼합 기술(FinFET + 신흥) 노드 합법화를 지원하도록 파이프라인을 확장하는 방안을 탐구할 계획이다.

Authors

Xingyu Liu
Jiawei Liang
Linfeng Du
Yipu Zhang
Chaofang Ma
Hanwei Fan
Jiang Xu
Wei Zhang

Paper Information

arXiv ID: 2512.04527v1
Categories: cs.AR, cs.DC
Published: December 4, 2025
PDF: Download PDF

[Paper] FLEX: FPGA-CPU 시너지 활용을 통한 혼합 셀 높이 Legalization 가속

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] Metronome: 서버리스 함수를 위한 차별화된 지연 스케줄링

[Paper] 버스 장착형 Edge Servers는 실현 가능할까?

[Paper] 컴파일러 지원 감소 정밀도 및 AoS-SoA 변환을 위한 이기종 하드웨어

[Paper] FedGMR: 비동기와 모델 이질성 하에서 점진적 모델 복원을 이용한 Federated Learning