[Paper] LLVM 기반 SPDZ용 최적화 파이프라인

발행: 1개월 전 (2025년 12월 12일 오전 05:53 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.11112v1

Overview

이 논문은 SPDZ 보안 다자간 계산(MPC) 프로토콜을 LLVM 생태계에 연결하는 프로토타입 컴파일러‑런타임 스택을 제시한다. 개발자가 일반적인(주석이 달린) C 코드를 작성하면, 시스템이 자동으로 병렬성을 추출하고, 산술 연산을 배치하며, 통신과 계산을 겹쳐 실행함으로써 CPU에서 최대 5.5배의 속도 향상과 확장 가능한 GPU 가속을 제공한다.

Key Contributions

LLVM‑기반 프론트‑엔드는 소규모의 프라이버시 주석이 달린 C 부분집합을 받아 LLVM IR로 낮추며, LLVM의 성숙한 분석 기능을 재사용한다.
자동 배치는 독립적인 산술 연산을 자동으로 묶어, 프로그래머가 직접 병렬성을 표현할 필요를 없앤다.
프로토콜 인식 스케줄러는 백엔드에서 데이터 흐름 및 제어 흐름 분석을 수행해 논블로킹 런타임을 구동하고, 네트워크 트래픽과 로컬 계산을 겹쳐 실행한다.
GPU 오프로드 경로는 대규모 배치 산술 커널을 CUDA 커널로 매핑한다(가능한 경우).
실험적 평가는 CPU에서 MP‑SPDZ 대비 최대 5.56배의 속도 향상과 스레드 수에 따른 강한 스케일링을, GPU 백엔드는 더 큰 입력에 대해 더 나은 스케일링을 보여준다.

Methodology

프론트‑엔드 파싱 – 개발자는 @secret와 같은 경량 주석을 사용해 비공개 값을 표시한 C 코드를 작성한다. 파서는 이를 LLVM IR로 변환하고, 주석을 메타데이터로 보존한다.
LLVM 최적화 – 표준 패스(데드 코드 제거, 루프 언롤링 등)가 그대로 실행된다. 이후 커스텀 패스가 독립적인 산술 문장을 감지하고 이를 배치로 그룹화한다.
백엔드 분석 – 데이터 흐름 패스가 배치된 연산들의 의존성 그래프를 만든다. 제어 흐름 패스는 비밀 공유를 주고받는 통신을 독립적인 로컬 작업과 겹칠 수 있는 지점을 식별한다.
런타임 스케줄러 – 스케줄러는 논블로킹 방식으로 동작한다: 네트워크 메시지를 미리 전송하고, 응답을 기다리는 동안 준비된 배치를 계속 실행한다. 배치가 충분히 크고 GPU가 존재하면 CUDA 커널로 디스패치한다.
평가 – 저자들은 SPDZ의 온라인 단계에서 마이크로벤치마크(행렬 곱셈, 다항식 평가 등) 모음에 대해 CPU 전용 및 CPU+GPU 구성 모두에서 최신 MP‑SPDZ 구현과 비교한다.

Results & Findings

Configuration	Speed‑up vs. MP‑SPDZ	Scaling behavior
CPU, 1‑thread	1.8× – 2.3× (가벼운 워크로드)	8코어까지 거의 선형
CPU, 8‑threads	최대 5.56× (무거운 대수 연산)	강한 스케일링, 16스레드 이후 수익 감소
GPU (CUDA)	대형 입력에서 CPU‑only 대비 2.5× – 4.0×	배치 크기가 커질수록 개선; 작은 문제에서는 오버헤드 무시 수준

핵심 요약

자동 배치는 기존 SPDZ 툴체인에서 요구되던 대부분의 수동 병렬성 작업을 없앤다.
논블로킹 스케줄링은 네트워크 지연을 숨겨주며, 특히 고대역폭·고지연 네트워크에서 효과적이다.
GPU 가속은 배치된 연산이 몇 천 개를 초과할 때 가치가 있으며, 이는 프라이버시 보호 머신러닝 추론 등 실제 MPC 작업의 전형적인 규모와 일치한다.

Practical Implications

진입 장벽 낮춤 – 개발자는 도메인‑특화 언어나 복잡한 병렬 MPC 파이프라인을 배우는 대신, 간단한 주석만 달린 익숙한 C 코드를 작성하면 된다.
빠른 프로덕션 배포 – 관측된 속도 향상은 직접적인 컴퓨팅 비용 절감과 더 짧은 지연 시간 예산을 의미한다(예: 보안 경매, 연합 분석).
하드웨어에 구애받지 않는 스케일링 – 동일한 코드베이스가 다중 코어 CPU에서 효율적으로 실행되며, 코드 변경 없이 GPU 가속 클러스터로 업그레이드할 수 있어 워크로드 성장에 부드러운 마이그레이션 경로를 제공한다.
통합 가능성 – 프론트‑엔드가 표준 LLVM IR을 출력하므로, 기존 툴체인(Clang, Rust‑LLVM 백엔드 등)을 확장해 SPDZ를 타깃으로 삼을 수 있어 언어 지원 범위가 넓어질 전망이다.

Limitations & Future Work

C 부분집합 – 현재는 직선형 산술, 간단한 루프 등 제한된 언어 기능만 지원한다; 복잡한 자료구조와 동적 메모리는 범위 밖이다.
온라인‑페이즈 중심 – 평가가 온라인 단계에 집중돼 있으며, 오프라인 전처리(곱셈 트리플 사전 계산)는 가속되지 않는다.
프로토타입 성숙도 – 시스템은 개념 증명 수준이며, 견고성, 오류 처리, 기존 MPC 프레임워크와의 통합에는 추가 엔지니어링이 필요하다.
향후 방향 – 프론트‑엔드를 전체 C/C++(또는 다른 언어)로 확장하고, 다른 MPC 프로토콜(BGV, CKKS 등) 지원을 추가하며, CPU·GPU·FPGA 가속기를 아우르는 이기종 스케줄링을 탐구한다.

Authors

Tianye Dai
Hammurabi Mendes
Heuichan Lim

Paper Information

arXiv ID: 2512.11112v1
Categories: cs.CR, cs.DC, cs.SE
Published: December 11, 2025
PDF: Download PDF

[Paper] LLVM 기반 SPDZ용 최적화 파이프라인

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 하이퍼그래프 기반 다자간 결제 채널

[Paper] Stateless Snowflake: 클라우드-애그노스틱 Distributed ID Generator Using Network-Derived Identity

[Paper] FirecREST v2: 확장 가능한 HPC 자원 접근을 위한 API 재설계에서 얻은 교훈

[Paper] 다중 패킷 메시징 하에서 분산 Closeness Centrality를 위한 Enhanced Pruning