第3部分:使用 Databricks 示例数据集模拟实时流式数据

发布: (2026年1月2日 GMT+8 18:48)
2 分钟阅读
原文: Dev.to

Source: Dev.to

数据集概览

我们使用 Databricks NYC Taxi 示例数据集,该数据集在 Databricks 中默认可用。

NYC Taxi Sample Dataset

该数据集非常适合,因为它包含:

  • 事件时间戳tpep_pickup_datetime
  • 数值度量fare_amounttrip_distance
  • 位置属性pickup_zipdropoff_zip
  • 足够的数据量,可以观察性能和 shuffle 行为

虽然数据集是静态的,但我们将其转换为流式来源。

将静态数据转换为流式来源

步骤 1:读取示例数据集

df = spark.table("samples.nyctaxi.trips")

此时,数据是普通的批处理 DataFrame。

步骤 2:将数据写入 JSON 文件

为了模拟流式输入,我们将数据集写入 JSON 文件到一个目录:

(
    df.write
      .mode("overwrite")
      .format("json")
      .save("/tmp/taxi_stream_input")
)

这会将文件写入 DBFS(Databricks 文件系统),覆盖 /tmp/taxi_stream_input 中先前存在的任何文件。该操作会创建多个 JSON 文件,每个文件代表一批即将到来的事件。

JSON Files Created

现在数据已经以文件存储的形式可供我们读取并启动流式处理!

Back to Blog

相关文章

阅读更多 »

RGB LED 支线任务 💡

markdown !Jennifer Davishttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%...

Mendex:我为何构建

介绍 大家好。今天我想分享一下我是谁、我在构建什么以及为什么。 早期职业生涯与倦怠 我在 17 年前开始我的 developer 生涯……