Apache Iceberg、Parquet、Polaris 和 Arrow 开发者列表摘要:2026年1月6日至14日

发布: (2026年1月15日 GMT+8 21:35)
7 min read
原文: Dev.to

I’m happy to translate the article for you, but I’ll need the full text of the post (the content you’d like translated). Could you please paste the article’s body here? Once I have the text, I’ll provide a Simplified Chinese translation while preserving the source link, formatting, markdown, and any code blocks or URLs.

📚 获取数据湖仓库书籍

🌐 Lakehouse Community

📅 每周社区更新(2026 年 1 月第二周)

2026 年 1 月的第二周,Apache IcebergPolarisArrowParquet 社区在从假期模式转入活跃开发的过程中保持了持续的动力。重点包括治理讨论、社区组织以及将塑造 2026 年湖仓生态系统的技术提案。

Apache Iceberg

  • Iceberg‑Spark 社区同步会已建立
    Anurag Mantripragada 提议为 Spark‑Iceberg 集成设立一个独立的月度同步会,区别于主社区同步会。该提议立即得到 Anton Okolnychyi 和 Kevin Liu 的支持,首场 Iceberg‑Spark 社区同步会 定于 1 月 20 日(太平洋时间 10‑11 am)

    • 议程: 排序顺序报告、Spark 4.1 支持以及 DataFusion‑Comet 集成的未来方向。
    • 详情: mail archive link
  • 项目博客启动投票通过
    Kevin Liu 发起正式投票,决定在 iceberg.apache.org/blogs/ 建立官方 Apache Iceberg 博客。投票以多项有约束力和无约束力的 +1(例如 Russell Spitzer、Steven Wu)通过。

  • OAuth2 Manager v2 提案讨论
    OAuth2 Manager v2 设计文档正在细化。Christian Thiel 质疑已废弃 1.5 年的旧 token‑exchange 行为是否需要迁移。

  • Summit CFP 提醒
    1 月 18 日 的征稿截止日期临近。

    • Robin Moffatt 询问评审委员会的组成。
    • Jean‑Baptiste Onofré 确认 Russell Spitzer 为主要 PMC 联系人,并指出委员会的隶属关系将在最终提案中列出。

Apache Polaris

  • 毕业进程加速
    1 月初的例行社区同步会和开发冲刺持续进行。不断壮大的 PPMC 体现了治理的健康成熟。

    • 通用表(支持 Apache Hudi、Delta Lake 等外部格式的目录功能)计划在即将发布的版本中从 beta 迁入正式版。
  • 集成测试范围扩大
    随着 AWS 额度的可用,贡献者讨论了在真实云基础设施上扩展集成测试,尤其是 IAM AssumeRole 流程和凭证发放场景,这些在本地难以模拟。此投入将提升生产就绪度验证。

Apache Arrow

  • 领导层延续性确认
    Arrow 的共同创始人 Antoine Pitrou 正式被任命为 PMC Chair,巩固治理稳定性,并继续提供项目创始领导层的技术愿景。

  • 格式增强持续进行
    工作进展包括:

    • 时间类型的时区支持。
    • 增强的计算函数。

这些增量更新保持了 Arrow 作为跨引擎和语言的通用列式交换层在分析工作负载中的领先地位。

Apache Parquet

  • 董事会报告草案已分发
    Julien Le Dem 分享了 1 月董事会报告草案,供社区在 1 月 14 日 提交截止日前审阅,并为 1 月 21 日 的董事会会议做准备。

    • Fokko Driesprong 已审阅并批准该报告,报告将涵盖近期发布活动和社区健康指标。
  • 1.17.0 版本发布完成
    1 月 2 日 投票通过后,贡献者验证签名并完成最终发布验证。

    • 此次发布 放弃 Java 8 支持,改为 Java 11 作为最低运行时版本——这是一次重要的现代化里程碑。
  • FSST 编码进展
    围绕 FSST(Fin

ite State Symbol Table) 压缩用于字符串和字节数组编码的高级功能。贡献者正在探索在多个列页之间高效共享压缩字典,以减少字符串密集工作负载的文件大小。

🔄 跨项目主题

Java 现代化浪潮

Iceberg 和 Parquet 正在提升它们的 Java 要求(Parquet 升级至 Java 11;Iceberg 正在考虑类似的迁移)。这一趋势反映了向现代运行时、提升性能以及更好地与不断演进的 Java 生态系统保持一致的更广泛推动。

由 Data Lakehouse 社区准备。

现代化与生态系统成熟度

  • 语言与构建更新 – 项目正迁移至 Java 17,以启用现代语言特性并实现更简洁的依赖管理。这种协同的现代化体现了生态系统的成熟度以及放弃传统运行时支持的意愿。
  • 社区基础设施投入 – 从 Iceberg 的专用 Spark 同步和项目博客到 Polaris 的扩展测试基础设施,所有项目都在投入社区机制,将技术讨论转化为实际的实现指南并提升参与度。
  • 格式演进的平衡 – 当 Iceberg 探索 V4 功能、Parquet 考虑 V3 可能性时,两者都展示了在创新与稳定之间的审慎平衡,确保生产用户在引入破坏性更改之前拥有功能完整、稳定的平台。

展望未来

  • Iceberg Summit CFP 截止日期为 1月18日
  • Parquet Board Report 提交截止 1月14日
  • 首次 Iceberg‑Spark 社区同步 将于 1月20日 举行。
  • Atlanta Iceberg meetup 将于 1月21日 举行,继续推动自2025年以来不断发展的草根社区建设工作。

随着 lakehouse 生态系统的成熟,这些治理、社区和技术基础为 Apache Iceberg、Polaris、Arrow 和 Parquet 在新的一年中实现生产级创新和生态系统增长奠定了基础。

Back to Blog

相关文章

阅读更多 »

Rapg:基于 TUI 的密钥管理器

我们都有这种经历。你加入一个新项目,首先听到的就是:“在 Slack 的置顶消息里查找 .env 文件”。或者你有多个 .env …

技术是赋能者,而非救世主

为什么思考的清晰度比你使用的工具更重要。Technology 常被视为一种魔法开关——只要打开,它就能让一切改善。新的 software,...

踏入 agentic coding

使用 Copilot Agent 的经验 我主要使用 GitHub Copilot 进行 inline edits 和 PR reviews,让我的大脑完成大部分思考。最近我决定 t...