[논문] 다중 GPU 3D FDTD와 컨볼루션 완전 매칭 경계층을 위한 통신 전략 선택

발행: 5일 전 (2026년 6월 5일 PM 02:08 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.06910v1

개요

본 논문에서는 CUDA를 이용한 다중 GPU 3차원 유한 차분 시간 영역(FDTD) 계산에서 컨볼루션 완벽 매칭 층(CPML) 경계 조건을 적용한 통신 전략 연구를 기술한다. 가장 효과적인 구현을 판단하기 위해 사용된 지표는 실행 시간, 초당 수백만 출력 포인트 처리량, 강한 스케일링 효율, CPML 오버헤드, 호스트를 통한 교환 대비 직접 GPU‑to‑GPU 교환 가속, 확대된 고스트 영역 가속 등을 포함한다. 단일 NVIDIA Quadro RTX 6000 GPU에서 CPML 구현은 경계층 오버헤드가 1 % 미만인 상태에서 초당 2,889‒3,290 백만 출력 포인트를 지속적으로 처리하며, 이는 다중 GPU 연구를 위한 단일 GPU 기준선이 된다. 결과는 직접 GPU‑to‑GPU 피어 교환이 호스트 기반 교환에 비해 2.46‒2.76배의 가속을 제공하는 주요 최적화임을 보여준다. 반면 확대된 고스트 영역은 통신 빈도 감소가 중복 연산 및 추가 메모리 트래픽에 의해 부분적으로 상쇄되어 큰 이득을 주지 않는다. NVIDIA Quadro RTX 8000 GPU에서는 테스트된 강한 스케일링 경우에 두 GPU 사용 시 최대 1.51배의 가속을 달성했으며, 네 GPU를 사용하면 단일 GPU 메모리 용량에 근접하거나 이를 초과하는 더 큰 격자를 처리할 수 있다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.DC
math-ph

방법론

자세한 방법론은 전체 논문을 참고한다.

실용적 함의

본 연구는 cs.DC 분야의 발전에 기여한다.

저자

Victory C. Obieke

논문 정보

arXiv ID: 2606.06910v1
분류: cs.DC, math-ph
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] 다중 GPU 3D FDTD와 컨볼루션 완전 매칭 경계층을 위한 통신 전략 선택

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 클레어보이언트: 직렬 LLM 백엔드의 헤드오브라인 차단을 완화하는 예측형 SJF 스케줄링

[논문] 클라우드 네이티브 및 연합 클라우드‑엣지 환경에서의 예측 자동 확장: 분류 체계와 향후 과제

[논문] PCCL: 프로세스 그룹 인식형 확장·범용 집합 알고리즘 합성기

[논문] 자율주행을 위한 미션 수준 런타임 보증 프레임워크