Apache 开发者列表摘要:Iceberg、Polaris、Arrow 与 Parquet(2025年12月9日 - 12月15日)
Source: Dev.to
资源
获取数据湖仓库书籍
- Apache Iceberg: The Definitive Guide
- Apache Polaris: The Definitive Guide
- Architecting an Apache Iceberg Lakehouse
- The Apache Iceberg Digest: Vol. 1
湖仓社区
Apache Iceberg
1.10.1 补丁发布 正在进行中
Iceberg 正在准备 1.10.1 补丁发布。首次 RC0 投票因在某些模块 JAR 中发现许可证问题而被取消。新的发布候选版(RC1)于 12 月 14 日提出,现正作为正式的 1.10.1 版本进行投票。此次小版本旨在为 1.10.x 分支提供关键的 bug 修复和稳定性改进。
影响 – 一旦获批,1.10.1 更新将为生产用户提供重要修复(例如依赖许可证纠正和运行时稳定性调优),确保在最新的 Iceberg 1.x 系列上获得更顺畅的体验。
12 月董事会报告 & 社区更新
Iceberg 团队在开发者邮件列表上分享了 12 月董事会报告草稿。季度报告概述了近期进展(如即将发布的 1.10.1 以及 Format V4 设计工作),并庆祝社区增长,指出过去一个季度新增了多位提交者和 PMC 成员。该报告帮助 Apache 领导层监督 Iceberg 的健康状况和发展势头。
Iceberg Summit 2026 – 征稿启事
一则 [ANNOUNCE] 邀请提交演讲稿,面向首届 Apache Iceberg Summit 2026。征稿截止日期为 2026 年 1 月 18 日。会议将展示项目日益壮大的生态系统和用户社区。
为何重要 – 独立的 Iceberg 峰会凸显了项目的成熟度和广泛关注,为真实案例、集成方案和最佳实践提供了交流平台。
多表事务规划
围绕在 Iceberg 中支持跨多个表的多语句事务的设计讨论仍在进行。贡献者正在探索一种 “Interactive Commit” API,以在表之间协调原子更改(对复杂 ETL 或模式演进场景尤为有用)。社区同步会议已安排在 12 月 18 日举行,以细化提案并收集反馈。
使用场景 – 若实现,此功能将允许在多个 Iceberg 表上进行原子提交(例如同时更新事实表及其派生聚合表),在全有或全无的数据工作流中保持一致性。
Apache Polaris
1.3.0‑incubating 已发布
Polaris(孵化中)在通过社区对其发布候选版的投票后,正式发布了 1.3.0‑incubating 版本。亮点包括:
- 通用表 GA – “通用表”功能现已达到生产就绪状态,允许 Polaris 以稳定方式目录化外部表格式(如 Apache Hudi、Delta Lake)。
- 云集成改进 – 加强了针对云环境(AWS、Azure)的集成测试和修复,提高了可靠性。
- Bug 修复 – 对核心服务进行多项可靠性增强。
作为孵化项目,Polaris 已获得 IPMC 对该发布的批准,进一步接近毕业。
新后端:提议支持 Google Spanner
启动了一项讨论,计划将 Google Cloud Spanner 作为 Polaris 元数据目录/存储层的后端选项。提案概述了将 Spanner 作为受支持的元数据存储或事务后端的集成方式。
收益 – Spanner 集成将把 Polaris 的多云故事从 Hadoop/Hive 元存储扩展到 GCP 环境,简化部署并支持更广泛的数据存储。
孵化器报告 & 社区增长
Polaris 编写了 12 月 孵化器报告,突出近期进展和社区活力。报告指出成功的 1.3.0 发布、改进的发布自动化,并帮助导师跟踪毕业准备情况。
- 领导层更新 – Yong Zheng 加入 Polaris PPMC,表明贡献者参与度在提升。
- 社区活动 – 定期同步会议持续进行(如 12 月 11 日),并计划在 12 月 16 日举办一次线上开发冲刺,聚焦入门、文档和未解决问题。
Apache Arrow
Arrow Go 18.5.0 已发布
Arrow Go 子项目发布了 18.5.0 版本,这是一次包含 17 位贡献者共计 38 次提交的次要更新。投票顺利通过,发布于 12 月 12 日宣布。
为何重要 – Go 实现被广泛用于轻量分析和 ETL 流程。定期更新可保持 Arrow 的 Go 支持与其 C++、Rust、Java 兄弟保持同步,确保多语言一致性。
Arrow Java 20.0.0 – 因 IP 清理暂缓
提议的 Arrow Java 20.0.0 发布因涉及第三方贡献的 IP 清理要求而暂时搁置。虽然社区原则上支持该发布,但 Apache 政策要求在引入新依赖前进行正式审查。
要点 – 这体现了 ASF 对许可证透明度和合规性的承诺。待清理获批后,Arrow Java 20.0.0 预计将继续推进,为基于 Java 的分析引擎带来新特性和性能优化。
新 TimestampWithOffset 类型获批
Arrow 格式规范正式扩展,加入全新的 TimestampWithOffset 类型。该类型提供了一种标准化方式来表示带时区偏移的时间戳,消除在共享或序列化时间数据时的歧义。
影响 – 此新增提升了基于 Arrow 的数据交换在时区正确性方面的表现。