High Frequency Solar Data 처리 (HPC 없이): MackSun의 실제 제약과 설계 결정

발행: (2026년 4월 16일 AM 10:58 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

The problem

POEMAS와 같은 기기(https://www.macksun.org/pages/wiki/arquivos-telescopios.html)는 약 10 ms 간격으로 데이터를 수집하여 고주파 태양 데이터의 연속 스트림을 생성합니다. 이는 다음과 같은 구체적인 과제를 야기합니다:

  • 부하가 걸린 상태에서의 지속적인 데이터 수집
  • 수십억 건의 레코드에 대한 장기 저장
  • 메모리 및 I/O 제한
  • 지속적인 압박 속에서의 처리

대부분의 경우 이러한 과제는 분산 시스템이나 HPC 클러스터가 필요하지만, MackSun은 이를 없이 작업해야 했습니다.

데이터 출처

MackSun에서 사용되는 데이터는 합성된 것이 아니라 남미에 위치한 실제 태양 관측 장비에서 나온 것으로, 아르헨티나의 CASLEO 관측소에서 운영되며 브라질의 Mackenzie Presbyterian University에 속한 CRAAM이 관리합니다. 이는 다음과 같은 이유로 중요합니다:

  • 데이터가 실제 관측 조건 하에서 생성됩니다
  • 획득이 지속적이며 물리적 제약을 받습니다
  • 시스템 동작이 실제 하드웨어에 의해 영향을 받습니다

이는 통제된 환경이 아닌 실시간 획득 시나리오입니다.

인프라 제한

  • 16 vCPU
  • 총 32 GB RAM
  • 운영 체제용으로 4 GB 예약
  • MongoDB에 할당된 16 GB (샤드 모드 실행)
  • 인제스트 파이프라인 컨테이너에 할당된 12 GB

MongoDB의 샤드 모드는 단일 머신에서 실험적으로 검증되었으며, 이후 Astronomy and Computing에 발표되었습니다 (https://www.sciencedirect.com/science/article/pii/S221313372500126X). 이러한 제한은 적용되며, 시스템은 그 범위 내에서 동작하도록 설계되었습니다.

데이터 규모

현재 용량:

  • ~30억 데이터 포인트
  • 태양 관측 장비로부터 지속적인 수집
  • 고주파수 원본 데이터

이 규모에서 통제되지 않은 성장은 불안정을 초래하므로 시스템은 메모리 사용량, 쓰기 패턴, 데이터 조직 및 쿼리 동작을 제어해야 합니다.

Partitioning strategy

컬렉션당 ≈150 백만 데이터 포인트에 대한 엄격한 제한이 적용됩니다. 이 임계값을 초과하면:

  • 성능 저하
  • 쿼리 속도 저하
  • 메모리 압력 증가

따라서 데이터를 여러 컬렉션으로 분할하여 안정성을 유지합니다.

인제션 모델

Ingestion은 실시간이 아니며, 하루에 한 번 실행되는 다섯 단계의 순차 파이프라인으로 동작합니다. 이 접근 방식은:

  • 지속적인 부하 압력을 방지합니다
  • 리소스 사용량을 예측 가능하게 유지합니다
  • 장애 처리를 단순화합니다

배치 처리로 인해 지연 시간 유연성은 감소하지만 안정성은 보장됩니다.

사전 계산된 데이터셋

요청 시점에 즉시 처리하는 것은 이러한 제약 하에서는 실현 가능하지 않습니다. 하루 관측은 약 5 백만 개의 데이터 포인트를 생성합니다; 요청 중에 이를 처리하면 지연 시간이 증가하고, 과도한 메모리를 사용하며, 시스템이 불안정해집니다. 대신, 일일 데이터셋을 사전에 생성하고, 처리하고, 통합하여 즉시 제공 가능한 형식으로 저장합니다.

Trade‑offs

측면결정
실시간 vs 안정성실시간 처리 없음; 배치 수집
예측 가능성 vs 유연성준비된 데이터셋을 통한 구조화된 접근; 임의의 원시 데이터 쿼리 불가
인프라 vs 엔지니어링하드웨어 확장 없음; 단일 서버에서 샤딩 (실험적으로 검증됨)
유연성 vs 안정성사전 계산으로 유연성은 감소하지만 일관된 성능을 보장

왜 이것이 작동하는가

시스템이 성공하는 이유는 제한을 적용하기 때문입니다:

  • 컬렉션은 제한되어 있습니다
  • 메모리 사용이 제어됩니다
  • 수집과 접근이 분리됩니다
  • 무거운 처리는 사전에 수행됩니다

인프라 확장에 의존하는 대신, 시스템은 제어된 동작에 의존합니다.

Final thoughts

MackSun은 제약을 설계의 일부로 다룰 때 HPC 없이도 수십억 레코드를 처리할 수 있음을 보여줍니다. 이를 위해서는:

  • 엄격한 파티셔닝
  • 제어된 인제스트
  • 사전 계산된 출력
  • 규율 있는 자원 사용

데이터셋을 탐색하고 제한된 하드웨어에서 MackSun이 수십억 레코드를 어떻게 처리하는지 확인해 보세요: https://www.macksun.org

0 조회
Back to Blog

관련 글

더 보기 »

LinkedIn 아니면 LinkeDone?

!LinkedIn 또는 LinkeDone용 커버 이미지?https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads...

Iceye 오픈 데이터

!IOD_Map https://www.iceye.com/hs-fs/hubfs/_DATA_AND_MISSIONS/Open%20Data/IOD_Map.jpg?width=960&height=540&name=IOD_Map.jpg Open SAR 데이터 맵 브라우저 사용 가능한 항목 탐색