· software
Data Engineering 并非关于工具——而是关于这种思考方式
引言:数据工程常被误解为主要由工具驱动的学科。新手经常被建议掌握 Airflow、Spark、Kafka……
引言:数据工程常被误解为主要由工具驱动的学科。新手经常被建议掌握 Airflow、Spark、Kafka……
在数据工程中,失败是常态:作业崩溃,网络超时,Airflow 重试任务,Kafka 重放消息,backfills 重新运行数月的数据。
Spark受GitHub Data Protection Agreement的覆盖。自10月27日起,Spark受GitHub Data Protection Agreement的覆盖,这意味着数据处理…