[논문] 다중 정밀도 정수 나눗셈을 위한 GPU 구현

발행: 6일 전 (2026년 6월 5일 AM 01:51 GMT+9)

2 분 소요

원문: arXiv

Source: arXiv - 2606.06386v1

개요

이 논문은 범용 GPU에서 빠른 정수 나눗셈 알고리즘을 구현할 때 발생하는 문제들을 제시한다. 이 알고리즘은 시프트된 역연산을 기반으로 하는 뉴턴 반복을 사용하며, 모든 연산을 정수 영역에서 수행하고 데이터 병렬 연산자에 의존한다. 주요 기여는 $2^{15}$부터 $2^{18}$까지의 정수 정밀도에 대한 효율적인 GPU/CUDA 구현을 제공하는 것으로, 이는 \cgbn{} 나눗셈이 지원하지 않는 크기이다. 우리는 알고리즘 개선을 제안하고, 곱셈을 기준으로 한 비용 모델을 정의하며, 프리픽스 합과 기존의 다중 정밀도 곱셈 연구를 기반으로 하고, 목표 정밀도에 대해 모델에 근접한 최적에 가까운 성능을 보여주는 평가를 제시한다.

핵심 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.DC
cs.MS
cs.SC

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

이 연구는 cs.DC 분야의 발전에 기여한다.

저자

Martin B. Marchioro
Aske N. Raahauge
Marc I. Løvenskjold
Cosmin E. Oancea
Stephen M. Watt

논문 정보

arXiv ID: 2606.06386v1
Categories: cs.DC, cs.MS, cs.SC
Published: 2026년 6월 4일
PDF: PDF 다운로드

[논문] 다중 정밀도 정수 나눗셈을 위한 GPU 구현

개요

핵심 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 클레어보이언트: 직렬 LLM 백엔드의 헤드오브라인 차단을 완화하는 예측형 SJF 스케줄링

[논문] 클라우드 네이티브 및 연합 클라우드‑엣지 환경에서의 예측 자동 확장: 분류 체계와 향후 과제

[논문] PCCL: 프로세스 그룹 인식형 확장·범용 집합 알고리즘 합성기

[논문] 자율주행을 위한 미션 수준 런타임 보증 프레임워크