CASTOR: CERN 고급 스토리지 매니저

발행: (2026년 6월 5일 AM 04:52 GMT+9)
5 분 소요

출처: Hacker News

CERN Advanced STORage manager (CASTOR)는 CERN에서 물리학 데이터를 대용량으로 보관하기 위해 개발한 계층형 스토리지 시스템(디스크 + 테이프)입니다. 파일은 CASTOR 명령줄 도구나 CASTOR API 기반 애플리케이션을 이용해 저장·목록 조회·복구·원격 접근이 가능합니다. CASTOR는 XROOT(권장 프로토콜)와 GridFTP와 같은 접근 프로토콜을 제공하며, RFIO는 2016년까지 지원되었습니다.

CASTOR는 1990년대에 사용되던 SHIFT (Scalable Heterogeneous Integrated FaciliTy for HEP computing)를 계승했습니다. 2020년 6월 29일부로 CERN Tape Archive (CTA)가 CASTOR의 후속 시스템으로 가동을 시작했으며, 점차 대체하고 있습니다. 2001년 이후 CERN의 테이프 전체 데이터 양 변화( CASTOR 1 1998‑2007, CASTOR 2 2005‑2022, CTA 2020‑현재 통계 포함)는 아래 그래프에 나타나 있습니다.

Design

아키텍처는 모든 CASTOR 구성 요소의 상태 변화를 기록하는 데이터베이스를 중심으로 한 컴포넌트 기반 설계(Architecture diagram)를 따릅니다.

  • Stager는 디스크 풀을 관리하고, 공간을 할당·회수하며, 클라이언트 접근을 제어하고, 로컬 디스크 카탈로그를 유지합니다.
  • Name Server는 CASTOR 네임스페이스(파일 및 디렉터리)와 메타데이터(크기, 날짜, 체크섬, 소유권, ACL, 테이프 복사 정보)를 저장합니다. Unix 스타일 명령줄 도구(예: nslsls)를 통해 네임스페이스를 조작할 수 있습니다.
  • Tape Infrastructure는 정의된 조건 하에 파일을 테이프에 기록하여 데이터 안전성을 보장하고, 사용 가능한 디스크 용량을 초과하는 저장을 가능하게 합니다. CERN의 고용량 테이프 장비에는 Oracle StorageTek T10000C(5 TB)와 IBM TS1140(4 TB)이 포함됩니다. 카트리지는 자동화된 라이브러리(4 × Oracle SL8500 및 3 × IBM TS3500)에 보관되어 전체 테이프 아카이브 용량은 약 100 PB(2013년 1월 기준)입니다.
    Oracle StorageTek T10000C
  • Volume Manager는 각 테이프의 특성, 용량 및 상태를 추적합니다. Name Server 데이터베이스는 테이프 상 파일 수준 상세 정보(소유권, 권한, 오프셋 위치)를 기록합니다. 사용자 명령으로 두 데이터베이스를 모두 조회할 수 있습니다.
  • **Volume Drive Queue Manager (VDQM)**는 라이브러리 전용 제어 소프트웨어와 함께 카트리지를 테이프 드라이브에 장착·분리하는 작업을 담당합니다.
  • Client는 사용자에게 CASTOR 데이터의 업로드, 다운로드, 접근 및 관리 기능을 제공합니다.
  • **Storage Resource Management (SRM)**은 SRM 프로토콜을 통해 컴퓨팅 그리드에서 데이터 접근을 가능하게 하며, CASTOR와 연동해 LHC 커뮤니티가 사용하는 파일 전송 시스템(FTS) 등 사용자 또는 서비스의 요청을 처리합니다.

테이프 스토리지는 하드 디스크에 비해 테라바이트당 비용이 훨씬 낮고, 유휴 상태에서는 전력을 소모하지 않지만, 접근 시간은 초 단위가 아니라 분 단위에 가깝습니다.

0 조회
Back to Blog

관련 글

더 보기 »

OpenAI, SEC에 S‑1 초안 제출

We recently submitted a confidential S-1. We expect it to leak so we’re just announcing it. We have not decided on timing yet; it may be a while because there a...