저가 인텔 옵테인 768GB로 단일 GPU에서 1조 파라미터 LLM 실행, Kimi K2.5 로컬 설치 시 초당 약 4 토큰 달성

발행: (2026년 5월 23일 PM 08:20 GMT+9)
6 분 소요

출처: Tom’s Hardware

Intel

(이미지 출처: Lenovo)

레딧 사용자가 Optane PMem DIMM을 RAM으로 활용해 1조 파라미터 규모의 LLM을 구동하는 워크스테이션을 만들며 화제를 모았다. APFrisco는 Local LLaMA 서브레딧에 미니 튜토리얼/가이드를 올려, 중고로 비교적 저렴하게 구입한 인텔 옵테인 지속 메모리를 이용해 “1조 파라미터 모델(이 경우 Kimi K2.5)을 로컬에서 초당 약 4 토큰 속도로 실행”했다는 과정을 공유했다.

Intel Optane Persistent Memory를 사용한 컴퓨터 빌드 - 초당 4 토큰 이상으로 1조 파라미터 모델 실행 가능 – r/LocalLLaMA

이 업적의 핵심은 레딧 사용자가 구한 6개의 Optane PMem(DCPMM) 스틱이었다. 단종된 메모리 포맷은 DRAM과 SSD 사이의 격차를 메우기 위해 설계되었다. 768 GB(6×128 GB)의 옵테인은 최고 NVMe SSD보다 확실히 낮은 레이턴시를 제공하지만, DRAM보다 2~3배 정도 느리다. 이러한 특성은 LLM 추론 프레임워크에 여전히 꽤 매력적이며, 중고 가격도 “동등한 DRAM 용량 대비 훨씬 저렴했다.” 안타깝게도 옵테인은 사라졌다고, 이 솔루션은 이색적인 선택이다.

APFrisco가 공개한 하드웨어 사양은 다음과 같다:

  • Intel Xeon Gold 6246 CPU
  • Tyan S5630GMRE-CGN 마더보드
  • Asus Dual GeForce RTX 3060 OC 12GB GPU
  • 6× 32 GB Samsung 2666 MHz DDR4 ECC DRAM 스틱
  • 6× 128 GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS 지속 메모리 모듈
  • Western Digital WD SN850X 2 TB M.2 2280 NVMe SSD
  • ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics Platinum 완전 모듈식 파워 서플라이
  • Silverstone SST‑GD08B (Black) Grandia 시리즈 홈 시어터 PC 케이스

이 빌드는 Optane을 메모리 모드로, Samsung DDR4를 캐시로 구성했다.

소프트웨어 측면에서는 앞서 언급한 Kimi K2.5의 mixture‑of‑experts 아키텍처를 활용했다. APFrisco는 llama.cpp를 이용해 GPU/CPU 하이브리드 추론 방식을 적용했으며, 처리 최적화를 위해 라우팅 컴포넌트를 12 GB GPU에 ‘override‑tensor’ 플래그로 억지로 끼워 넣었다.

레딧 사용자는 초당 약 4 토큰이라는 결과에 큰 자부심을 드러냈다. “이 정도 제한된 하드웨어 예산으로 트릴리언 파라미터 최첨단 모델을 구동한다는 점에서 큰 성공이라고 생각합니다.”라며 APFrisco는 인텔이 옵테인 제품 라인을 철수한 점을 안타까워했다.

이 장비 구성과 로컬 LLM 추론에서 달성한 성과에 관심이 있다면 원본 게시물에서 자세한 설정 정보를 확인할 수 있다. 또한 APFrisco는 댓글에서 질문에 답변하고 있으며, 현재 기반 위에 더 나은 결과를 얻기 위한 조언도 받고 있다.

Tom’s Hardware의 최신 뉴스와 깊이 있는 리뷰를 메일함으로 바로 받아보세요.

전체적인 흐름을 보면, DRAM과 SSD 사이의 메모리 격차를 메울 제품에 대한 수요가 여전히 존재한다는 점이다. 특히 LLM 같은 워크로드에 대해서는 말이다. 많은 이들은 이 격차가 곧 CXL (Compute Express Link) 표준에 의해 해소될 것으로 기대하고 있다. CXL은 이러한 작업에 적합한 저렴하고 바이트‑주소 지정이 가능한 대용량 메모리 풀을 제공할 것이라고 약속한다.

Google Preferred Source

팔로우* Tom’s Hardware on Google News*, 혹은* 선호 소스로 추가*하여 최신 뉴스, 분석, 리뷰를 피드에서 받아보세요.

Mark Tyson은 Tom’s Hardware의 뉴스 편집자이다. 그는 비즈니스·반도체 설계부터 경계에 도전하는 제품에 이르기까지 PC 기술 전반을 다루는 것을 즐긴다.

0 조회
Back to Blog

관련 글

더 보기 »

코어XZ 기구식 고속 프리미

!Creality Ender 3 V3 on sale with upgrade kithttps://cdn.mos.cms.futurecdn.net/87Xn4vXSvQJb45yhhx8NsR.png Image credit: Creality / Future 3D printing has become...