high-performance-computing

1주 전 · it

AMD가 당신이 강력한 게이밍 포터블을 좋아한다는 걸 들었어요 — 그래서 새로운 Strix Halo 칩을 소개합니다

GPD Win 5. AMD의 Strix Halo, 일명 'Ryzen AI Max'는 가장 강력한 통합 그래픽 중 하나를 포함한 매우 비싼 칩이다. 비록 AM...

#AMD #Strix Halo #Ryzen AI Max #integrated graphics #gaming portable #AI chip #hardware #high‑performance computing
2주 전 · software

AMD AI 엔진을 위한 BLAS 라이브러리 개발 [pdf]

번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

#BLAS #AMD AI Engine #library development #high‑performance computing #linear algebra #GPU acceleration
3주 전 · it

π 계산 기록이 314조 자리에서 깨졌으며, 단일 서버에서 4개월 동안 실행 — StorageReview가 스토리지 대역폭 덕분에 왕관을 되찾다

StorageReview가 다시 Pi 왕관을 차지하며 314조 자리까지 계산했습니다.

#pi calculation #record breaking #storage bandwidth #high performance computing #single server #Tom's Hardware
3주 전 · it

Pi 계산 세계 기록이 314조 자리에서 단일 서버로 4개월 실행으로 깨졌다 — StorageReview가 스토리지 대역폭 덕분에 왕관을 되찾다

StorageReview가 314조 자리의 파이를 계산하며 다시 파이 왕관을 차지했다.

#pi calculation #world record #high-performance computing #storage bandwidth #server performance #hardware
3주 전 · software

시간이 변수로 변했을 때 — Numba와 함께한 나의 여정 메모 ⚡

배경 처음에는 성능을 추구하지 않았습니다. 저는 이미지 처리, 원격 탐사, NumPy 중심 워크플로와 같은 무거운 계산 작업에 깊이 몰두하고 있었고, 일은 점점 복잡해졌습니다. ### 문제 인식 - **느린 실행 시간**: 단일 이미지 처리 파이프라인이 수십 초에서 수분까지 걸렸습니다. - **메모리 사용량**: 대규모 위성 이미지(수천 메가픽셀)를 메모리에 올리면 시스템이 금방 메모리 부족 상태가 되었습니다. - **확장성 부족**: 현재 코드는 단일 코어에 최적화돼 있어 멀티코어·GPU 활용이 거의 불가능했습니다. ### 초기 접근법 1. **프로파일링**: `cProfile`, `line_profiler` 등을 사용해 병목 구역을 식별했습니다. 2. **벡터화**: 루프 기반 연산을 NumPy 배열 연산으로 교체해 평균 2~3배 가속을 얻었습니다. 3. **메모리 매핑**: `numpy.memmap`을 도입해 전체 이미지를 한 번에 로드하지 않고 슬라이스 단위로 접근했습니다. ### 한계와 교훈 - **벡터화만으로는 충분치 않음**: 일부 알고리즘(예: 복잡한 필터링, 비선형 변환)은 여전히 O(N²) 복잡도를 유지했습니다. - **Python GIL**: 멀티스레딩을 시도했지만, GIL 때문에 CPU 바운드 작업에서 기대한 속도 향상이 없었습니다. - **디버깅 난이도**: 메모리 매핑과 대형 배열을 다루다 보니, 인덱스 오류와 메모리 누수가 빈번히 발생했습니다. ### 전환점: Cython & Numba 도입 1. **Cython**: 핵심 루프를 Cython으로 포팅하고 `cdef` 타입 선언을 추가해 C 수준의 성능을 달성했습니다. 2. **Numba**: JIT 컴파일러인 Numba를 사용해 GPU 가속을 시도했으며, `@njit(parallel=True)` 데코레이터로 멀티코어 병렬화를 구현했습니다. 3. **프로파일링 재실시**: `nvprof`와 `perf`를 활용해 GPU 메모리 전송과 커널 실행 시간을 최적화했습니다. ### 결과 - **전체 파이프라인 실행 시간**: 평균 45초 → 3.2초 (≈14배 가속) - **메모리 사용량**: 32 GB → 8 GB (메모리 매핑 + 청크 처리) - **확장성**: 동일 코드베이스로 다중 GPU 클러스터에 배포 가능해졌으며, 작업당 비용이 70% 절감되었습니다. ### 주요 교훈 요약 - **프로파일링이 최우선**: 실제 병목을 정확히 파악해야 불필요한 최적화에 시간을 낭비하지 않는다. - **벡터화와 메모리 매핑은 기본**: NumPy를 최대한 활용하고, 대용량 데이터는 메모리 매핑으로 슬라이스 처리한다. - **Cython/Numba는 선택이 아닌 필수**: 순수 Python만으로는 CPU 바운드·GPU 가속 작업을 충분히 최적화하기 어렵다. - **테스트와 검증**: 최적화 전후에 동일한 결과가 나오는지 자동화된 테스트 스위트를 구축해 회귀를 방지한다. ### 앞으로의 계획 - **Dask와 Ray 도입**: 클러스터 수준에서 작업을 자동으로 스케줄링하고, 데이터 파티셔닝을 효율화한다. - **ONNX 및 TensorRT**: 기존 필터링 파이프라인을 딥러닝 모델로 전환해 추론 속도를 추가로 끌어올린다. - **CI/CD 파이프라인**: 최적화된 코드와 벤치마크를 지속적으로 검증하는 자동화된 워크플로를 구축한다. 이러한 과정을 통해 단순히 “코드를 빠르게” 만드는 것이 아니라, **확장 가능하고 유지 보수 가능한 고성능 시스템**을 구축하는 것이 목표임을 다시 한 번 확인했습니다.

#Numba #Python #performance optimization #JIT compilation #NumPy #image processing #remote sensing #high‑performance computing
1개월 전 · software

고성능 GPGPU와 Rust 및 wgpu

컴퓨트 애플리케이션의 아키텍처 GPGPU 애플리케이션은 전통적인 렌더링 루프와 크게 다릅니다. 그래픽 컨텍스트에서 파이프라인은 c...

#rust #wgpu #gpgpu #compute-shaders #high-performance-computing #gpu-programming #webgpu #parallel-processing
1개월 전 · ai

CoreWeave의 AI 클라우드 플랫폼에서 NVIDIA H100 GPU가 기록적인 Graph500 실행을 달성한 방법

세계 최고 성능을 자랑하는 대규모 그래프 처리 시스템은 상용 클러스터 위에 구축되었습니다. NVIDIA는 지난달 https://blogs.nvidia.c... 를 발표했습니다.

#NVIDIA #H100 #GPU #CoreWeave #Graph500 #benchmark #BFS #high‑performance computing #AI cloud platform
1개월 전 · software

[Paper] Markov Chain Monte Carlo 방법을 위한 Parallel Tempering 가속화

Markov Chain Monte Carlo 방법은 확률 분포를 샘플링하기 위해 사용되는 알고리즘으로, 물리·화학 시스템의 Boltzmann 분포를 샘플링하는 데 일반적으로 사용됩니다…

#parallel-tempering #MCMC #CUDA #OpenMP #high-performance-computing