Apache Gravitino — 2025 年概述

发布: (2026年1月7日 GMT+8 08:14)
9 min read
原文: Dev.to

I’m happy to translate the article for you, but I’ll need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have it, I’ll translate it into Simplified Chinese while preserving the original formatting, markdown, and technical terms.

介绍

2025 年是 Apache Gravitino 的里程碑之年。该项目不仅晋升为 顶级项目 (Top‑Level Project, TLP),还发布了首个重要的稳定版本 1.0.0。在整年里,社区重点聚焦于 “情境工程”“AI 原生” 元数据管理,推出了突破性的功能,如 模型上下文协议 (MCP) 服务器Lance REST 服务以及 基于元数据的动作系统。本文总结了 Apache Gravitino 在 2025 年的里程碑和成就。

时间线

  • 2025年6月3日 – Apache Gravitino 正式毕业为 Apache 顶级项目,标志着重要的成熟里程碑。
  • 2025年 – 社区发布了多个关键版本,包括重大 1.0.0 发行以及 0.8.0‑incubating0.9.0‑incubating1.1.0 的功能更新。

2025.01.24 – Version 0.8.0‑incubating

  • 引入 Model Catalog,加强了 AI 支持。
  • 为 Filesets 添加了凭证发放功能,并新增了 Flink (Iceberg/Paimon) 连接器。

2025.05.07 – Version 0.9.0‑incubating

  • 通过全新的 Data Lineage 界面(符合 OpenLineage 标准)提升了数据治理。
  • 添加了 gcli 脚本,以提供更好的 CLI 体验。
  • 通过权限细化改进了安全性。

2025.09.24 – Version 1.0.0

  • 首个稳定的主要发行版,主题为 “从元数据管理到上下文工程”。
  • 引入 Metadata‑driven Action System(包括 Statistics、Policies 和 Jobs)。
  • 推出 MCP(Model Context Protocol)Server,使 AI 代理/大语言模型能够直接与元数据交互。
  • 在所有目录中实现统一的 Role‑Based Access Control (RBAC)

2025.11.20 – Version 1.0.1

  • 稳定性发布,包含更智能的作业模板和改进的 Python 客户端支持。

2025.12.19 – Version 1.1.0

  • 添加 Lance REST service,以支持 AI 工作负载的向量数据。
  • 引入 Generic Lakehouse Catalog,并支持 Hive 3 和多集群 HDFS Filesets。
  • 加强了 Iceberg REST 服务的安全性。

关键特性与改进

在2025年,Gravitino 从统一目录演进为 主动元数据控制平面。主要技术成就包括:

  • AI 与 LLM 集成 – 通过引入用于管理机器学习模型的 Model Catalog 和用于将 AI 代理与数据上下文连接的 MCP Server,将 Gravitino 定位为 AI 原生目录。Lance REST 服务(v1.1.0)进一步巩固了对向量数据集的支持。
  • 元数据驱动的操作 – 一个新框架,允许用户定义策略(例如 TTL、压实)并基于元数据执行作业,超越了被动的元数据存储。
  • 统一治理与安全 – 完整实现 RBAC、凭证发放以实现安全的数据访问(S3/GCS/ADLS),以及针对 Iceberg REST 服务的统一认证流程。
  • 生态系统扩展 – 新增连接器(通用 Lakehouse、Hive 3、Flink、Paimon)以及对 GVFS(Gravitino 虚拟文件系统) 的增强,以实现统一的文件管理。

社区

Apache Gravitino 社区在 2025 年实现爆发式增长,从孵化项目发展为由快速扩张的全球生态系统支持的顶级项目。

顶级项目毕业

  • 2025 年 6 月 3 日 – 正式毕业为 Apache 顶级项目,标志着社区健康、供应商中立治理和生产就绪度的成熟。

社区增长(同比)

指标20242025变化
GitHub Stars~1,1502,600++130 %
Forks~6001,500++150 %
Active Developers~20≈40+100 %
Total Commits~1,8003,300++83 %
  • Committer 增加

    • 2025 年 7 月 7 日: Chenxi Pan 加入为 Committer。
    • 2025 年 12 月 15 日: Junda Yang 和 Yangyang Zhong 加入为 Committer。
  • 全球影响力 – 在 Community Over Code(北美 & 亚洲)QCon 上海 上进行专题演讲,收集全球数据工程团队的关键生产反馈,以塑造路线图。

  • Breaking Lakehouse Silos – 随着组织采用多种“开放”表格格式,“格式锁定”现在取代了传统的供应商锁定。趋势正转向提供单一入口点以整合碎片化数据孤岛的Universal Lakehouse architectures
  • The Multimodal AI Explosion – AI 工作负载正从表格数据扩展到海量非结构化资产(图像、视频、音频)。传统数据栈正被AI‑native multimodal stacks取代,这些栈能够以与 SQL 表相同的治理方式处理复杂数据类型。
  • Emergence of Data Agents – AI 代理正成为主要的数据消费者。这些代理需要Context Engineering——使用元数据作为外部大脑,以自主发现、理解并操作数据。
  • Escalating AI Security Risks – AI 交互的高速特性使得静态安全(RBAC)变得过时。行业正转向Identity‑Centric Zero TrustFine‑Grained ABAC,以防止数据泄露并确保模型安全。

未来工作

  1. 通用 Lakehouse 与格式互操作性

    • 目标: 通过为现代 Lakehouse 提供统一的管理层,解决数据孤岛问题。
    • 多格式支持:Apache Iceberg、Delta Lake、Hudi 和 Paimon 提供一等支持。Gravitino 将充当“目录的目录”,让用户通过单一接口管理多种格式,显著降低供应商锁定风险。
  2. 面向 AI 时代的多模态数据栈

    Gravitino 正在发展,以赋能新一代 AI 原生数据栈

    • 生态系统集成 – 与 Daft、Ray、Lance 等以 AI 为中心的引擎深度集成。
    • 赋能新场景 – 通过为这些引擎提供统一的元数据层,Gravitino 让用户能够 复用 现有的数据治理能力——如审计和访问控制——用于现代多模态工作负载,实现企业级成熟度 从第一天起
  3. 数据代理编排(元数据即“大脑”)

    Gravitino 将成为自主 数据代理 的认知基础。

    • MCP 服务器与行动系统 – 借助 模型上下文协议(Model Context Protocol,MCP) 和我们的 元数据行动系统,我们正在探索基于场景的数据代理能力,使其能够 看到 数据并使用元数据作为推理上下文 对其进行操作(例如模式更新或压缩作业)。
  4. 高级安全:KMS 与 ABAC

    随着 AI 时代安全威胁的日益复杂,Gravitino 正在实现更细粒度和自动化的控制。

    • ABAC(基于属性的访问控制) – 实现一个 ABAC 引擎,根据动态标签(例如 Sensitivity=High)和环境上下文进行细粒度权限控制。
    • KMS 与凭证管理 – 与 密钥管理服务(Key Management Services,KMS) 集成,保护静态和传输中的数据。

2026 将是 AI 原生数据基础设施的决定性一年,Gravitino 社区才刚刚起步。
无论您是在探索联邦 Lakehouse 架构、多模态 AI 数据栈,还是生产中的数据代理,我们都欢迎您与我们一起共建、共演 Apache Gravitino ❤️。

Gravitino 2025 Summary Blog

Back to Blog

相关文章

阅读更多 »