[논문] 다중 정밀도 정수 나눗셈을 위한 GPU 구현
Source: arXiv - 2606.06386v1
개요
이 논문은 범용 GPU에서 빠른 정수 나눗셈 알고리즘을 구현할 때 발생하는 문제들을 제시한다. 이 알고리즘은 시프트된 역연산을 기반으로 하는 뉴턴 반복을 사용하며, 모든 연산을 정수 영역에서 수행하고 데이터 병렬 연산자에 의존한다. 주요 기여는 $2^{15}$부터 $2^{18}$까지의 정수 정밀도에 대한 효율적인 GPU/CUDA 구현을 제공하는 것으로, 이는 \cgbn{} 나눗셈이 지원하지 않는 크기이다. 우리는 알고리즘 개선을 제안하고, 곱셈을 기준으로 한 비용 모델을 정의하며, 프리픽스 합과 기존의 다중 정밀도 곱셈 연구를 기반으로 하고, 목표 정밀도에 대해 모델에 근접한 최적에 가까운 성능을 보여주는 평가를 제시한다.
핵심 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.DC
- cs.MS
- cs.SC
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
이 연구는 cs.DC 분야의 발전에 기여한다.
저자
- Martin B. Marchioro
- Aske N. Raahauge
- Marc I. Løvenskjold
- Cosmin E. Oancea
- Stephen M. Watt
논문 정보
- arXiv ID: 2606.06386v1
- Categories: cs.DC, cs.MS, cs.SC
- Published: 2026년 6월 4일
- PDF: PDF 다운로드