Apache Gravitino — 2025 요약

발행: (2026년 1월 7일 오전 09:14 GMT+9)
11 min read
원문: Dev.to

Source: Dev.to

번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 한국어로 번역해 드리겠습니다.

소개

2025년은 Apache Gravitino에게 이정표가 된 해였습니다. 이 프로젝트는 Top‑Level Project (TLP) 로 승격했을 뿐만 아니라 첫 번째 주요 안정 버전인 version 1.0.0을 출시했습니다. 연중 내내 커뮤니티는 “Contextual Engineering”“AI‑native” 메타데이터 관리에 집중하며, Model Context Protocol (MCP) server, Lance REST service, 그리고 metadata‑driven action system과 같은 혁신적인 기능들을 도입했습니다. 이 글에서는 2025년 Apache Gravitino의 주요 이정표와 성과를 정리합니다.

Timeline

  • 2025 년 6 월 3 일 – Apache Gravitino가 Apache Top‑Level Project로 공식 졸업하여 중요한 성숙 단계에 도달했습니다.
  • 2025 – 커뮤니티는 주요 1.0.0 릴리스를 포함해 0.8.0‑incubating, 0.9.0‑incubating, 1.1.0 등 여러 핵심 버전을 발표했습니다.

2025.01.24 – Version 0.8.0‑incubating

  • Model Catalog 도입으로 AI 지원이 강화되었습니다.
  • Filesets에 대한 credential vending 및 **Flink (Iceberg/Paimon)**용 새로운 커넥터가 추가되었습니다.

2025.05.07 – Version 0.9.0‑incubating

  • 새로운 Data Lineage 인터페이스(OpenLineage‑compliant)로 데이터 거버넌스가 향상되었습니다.
  • 더 나은 CLI 경험을 위한 gcli 스크립트가 추가되었습니다.
  • 권한 세분화로 보안이 개선되었습니다.

2025.09.24 – Version 1.0.0

  • 첫 번째 안정적인 주요 릴리스로, 테마는 “From Metadata Management to Contextual Engineering.” 입니다.
  • Metadata‑driven Action System(Statistics, Policies, Jobs 포함)이 도입되었습니다.
  • AI 에이전트/LLM이 메타데이터와 직접 상호작용할 수 있도록 하는 MCP (Model Context Protocol) Server가 출시되었습니다.
  • 카탈로그 전반에 걸친 통합 **Role‑Based Access Control (RBAC)**가 구현되었습니다.

2025.11.20 – Version 1.0.1

  • 더 스마트한 작업 템플릿과 향상된 Python 클라이언트 지원을 포함한 안정성 릴리스입니다.

2025.12.19 – Version 1.1.0

  • AI 워크로드를 위한 벡터 데이터를 지원하는 Lance REST service가 추가되었습니다.
  • Generic Lakehouse CatalogHive 3, 다중 클러스터 HDFS Filesets 지원이 도입되었습니다.
  • Iceberg REST 서비스의 보안이 강화되었습니다.

주요 기능 및 개선 사항

2025년에 Gravitino는 통합 카탈로그에서 활성 메타데이터 제어 평면으로 진화했습니다. 주요 기술 성과는 다음과 같습니다:

  • AI 및 LLM 통합 – ML 모델 관리를 위한 Model Catalog와 AI 에이전트를 데이터 컨텍스트와 연결하는 MCP Server를 도입하여 AI‑네이티브 카탈로그로 자리매김했습니다. Lance REST 서비스(v1.1.0)는 벡터 데이터셋 지원을 더욱 강화했습니다.
  • 메타데이터 기반 액션 – 사용자가 정책(예: TTL, 압축)을 정의하고 메타데이터를 기반으로 작업을 실행할 수 있는 새로운 프레임워크로, 수동적인 메타데이터 저장을 넘어섭니다.
  • 통합 거버넌스 및 보안 – RBAC의 완전 구현, 안전한 데이터 접근을 위한 자격 증명 제공(S3/GCS/ADLS), 그리고 Iceberg REST 서비스용 통합 인증 흐름을 제공합니다.
  • 생태계 확장 – 새로운 커넥터(Generic Lakehouse, Hive 3, Flink, Paimon)와 통합 파일 관리를 위한 GVFS (Gravitino Virtual File System) 개선이 포함됩니다.

커뮤니티

Apache Gravitino 커뮤니티는 2025년에 폭발적인 성장을 이루어, 인큐베이터 프로젝트에서 급속히 확장되는 글로벌 생태계의 지원을 받는 Top‑Level Project 로 진화했습니다.

Top‑Level 졸업

  • 2025 년 6월 3일 – Apache Top‑Level Project 로 공식 졸업, 커뮤니티 건강, 벤더‑중립 거버넌스, 그리고 프로덕션 준비 상태에서 성숙함을 의미합니다.

커뮤니티 성장 (전년 대비)

지표20242025변화
GitHub Stars~1,1502,600++130 %
Forks~6001,500++150 %
Active Developers~20≈40+100 %
Total Commits~1,8003,300++83 %
  • Committer 추가

    • 2025 년 7월 7일: Chenxi Pan 이 Committer 로 추가되었습니다.
    • 2025 년 12월 15일: Junda Yang 과 Yangyang Zhong 이 Committer 로 추가되었습니다.
  • 글로벌 존재감Community Over Code (NA & Asia)QCon Shanghai 에서 발표된 내용이 전 세계 데이터 엔지니어링 팀으로부터 중요한 프로덕션 피드백을 수집하여 로드맵을 형성하는 데 기여했습니다.

메타데이터 관리 산업 동향 (2026)

  • Breaking Lakehouse Silos – 조직이 여러 “오픈” 테이블 포맷을 채택하면서, 이제 “포맷 락인”이 전통적인 벤더 락인을 대체하고 있습니다. 이 추세는 파편화된 데이터 사일로에 대한 단일 진입점을 제공하는 Universal Lakehouse architectures 로 이동하고 있습니다.
  • The Multimodal AI Explosion – AI 워크로드가 표 형식 데이터를 넘어 이미지, 비디오, 오디오와 같은 방대한 비정형 자산으로 확대되고 있습니다. 전통적인 데이터 스택은 복잡한 데이터 유형을 SQL 테이블과 동일한 거버넌스로 처리하는 AI‑native multimodal stacks 로 대체되고 있습니다.
  • Emergence of Data Agents – AI 에이전트가 주요 데이터 소비자가 되고 있습니다. 이러한 에이전트는 Context Engineering—메타데이터를 외부 뇌로 활용하여 데이터를 자동으로 탐색, 이해 및 행동하도록 요구합니다.
  • Escalating AI Security Risks – AI 상호작용의 고속 특성으로 인해 정적 보안(RBAC)이 구식이 되었습니다. 업계는 데이터 유출을 방지하고 모델 안전성을 확보하기 위해 Identity‑Centric Zero TrustFine‑Grained ABAC 로 전환하고 있습니다.

향후 작업

  1. 범용 레이크하우스 및 포맷 상호운용성

    • 목표: 현대 레이크하우스를 위한 통합 관리 레이어를 제공함으로써 데이터 사일로 문제를 해결합니다.
    • 다중 포맷 지원: Apache Iceberg, Delta Lake, Hudi, Paimon에 대한 일류 지원. Gravitino는 “카탈로그의 카탈로그” 역할을 하여 사용자가 단일 인터페이스를 통해 여러 포맷을 관리하도록 하여 벤더 종속성을 크게 줄입니다.
  2. AI 시대를 위한 멀티모달 데이터 스택

    Gravitino는 새로운 세대의 AI‑네이티브 데이터 스택을 지원하도록 진화하고 있습니다.

    • 생태계 통합Daft, Ray, Lance와 같은 AI 중심 엔진과의 깊은 통합.
    • 새로운 시나리오 지원 – 이러한 엔진을 위한 통합 메타데이터 레이어를 제공함으로써, Gravitino는 기존 데이터 거버넌스 기능(예: 감사 및 접근 제어)을 첫날부터 현대 멀티모달 워크로드에 재사용할 수 있게 하여 엔터프라이즈 수준의 성숙도를 제공합니다.
  3. 데이터 에이전트 오케스트레이션 (“뇌” 역할 메타데이터)

    Gravitino는 자율 데이터 에이전트를 위한 인지 기반을 제공할 것입니다.

    • MCP 서버 및 액션 시스템 – **Model Context Protocol (MCP)**와 우리의 Metadata Action System을 활용하여, 데이터 에이전트가 메타데이터를 추론 컨텍스트로 사용해 데이터를 보고 (예: 스키마 업데이트 또는 컴팩션 작업) 작업할 수 있는 시나리오 기반 기능을 탐구하고 있습니다.
  4. 고급 보안: KMS 및 ABAC

    AI 시대에 보안 위협이 더욱 정교해짐에 따라, Gravitino는 보다 세분화되고 자동화된 제어를 구현하고 있습니다.

    • ABAC (속성 기반 접근 제어) – 동적 태그(예: Sensitivity=High)와 환경 컨텍스트에 기반한 세밀한 권한 부여를 위한 ABAC 엔진을 구현합니다.
    • KMS 및 자격 증명 관리 – **Key Management Services (KMS)**와 통합하여 데이터의 정지 및 전송 중 보호를 강화합니다.

2026년은 AI‑네이티브 데이터 인프라스트럭처에 있어 결정적인 해이며, Gravitino 커뮤니티는 이제 막 시작 단계에 있습니다.
여러분이 연합 레이크하우스 아키텍처, 멀티모달 AI 데이터 스택, 혹은 프로덕션 환경의 데이터 에이전트를 탐구하고 있든, Apache Gravitino를 함께 구축하고 발전시켜 나가길 환영합니다 ❤️.

Gravitino 2025 Summary Blog

Back to Blog

관련 글

더 보기 »