EUNO.NEWS EUNO.NEWS
  • All (20349) +286
  • AI (3104) +14
  • DevOps (907) +7
  • Software (10509) +190
  • IT (5781) +75
  • Education (48)
  • Notice
  • All (20349) +286
    • AI (3104) +14
    • DevOps (907) +7
    • Software (10509) +190
    • IT (5781) +75
    • Education (48)
  • Notice
  • All (20349) +286
  • AI (3104) +14
  • DevOps (907) +7
  • Software (10509) +190
  • IT (5781) +75
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 2天前 · software

    Git & GitHub:面向数据专业人士的版本控制入门指南

    在 Windows 上安装 Git 1. 访问 Git for Windows 下载页面 https://git-scm.com/download/win。 2. 下载 Windows 安装程序。 3. 运行安装程序……

    #git #github #version control #data engineering #data science #beginner guide
  • 6天前 · software

    开源 Dicer:Databricks 的 auto-sharder

    请提供您希望翻译的具体摘录或摘要文本。

    #databricks #dicer #auto-sharder #open-source #data-sharding #distributed-systems #data-engineering
  • 1周前 · software

    停止重新运行所有内容:DuckDB 中的本地增量管道

    增量模型 + 缓存的 DAG 运行(仅限 DuckDB) 我热爱本地优先的数据工作……直到我发现自己第 12 次在做同样的事:“我改了一个 mo...”

    #DuckDB #incremental pipelines #data engineering #local development #ETL #cached DAG runs #incremental models #upsert
  • 1周前 · software

    使用 Python 构建政府招标情报系统:来自真实世界的经验

    政府招标数据:开发者指南 政府招标 https://bidsathi.com/ 是印度最大的大型结构化数据来源之一。每个…

    #python #web-scraping #data-engineering #government-tenders #etl #api-integration #structured-data
  • 2周前 · software

    第7部分:Gold Layer – Metrics、Watermarks 和 Aggregations

    封面图片:第7部分:Gold Layer – Metrics, Watermarks, and Aggregations https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,form...

    #gold layer #data engineering #metrics #watermarking #aggregations #event time #dashboard-ready #data pipelines
  • 2周前 · software

    当 code‑gen 建议使用已弃用的 Pandas API 时——一种导致管道中断的细微漂移

    故障出现的方式:可见的错误是 downstream schema mismatch 和 validation check 失败,而不是生成代码中明显的异常。T...

    #pandas #code-generation #deprecated-apis #data-cleaning #pipeline-failure #python #ci-cd #data-engineering
  • 2周前 · software

    当 Codegen 建议使用已弃用的 Pandas API 时——警示性故事

    已弃用的 API 如何进入生产环境 我使用代码生成模型搭建了一个小型 ETL,将 CSV 文件规范化为标准 DataFrame。

    #code generation #pandas #deprecated APIs #CI/CD #crompt.ai #ETL #data engineering
  • 2周前 · software

    Data Engineering 并非关于工具——而是关于这种思考方式

    引言:数据工程常被误解为主要由工具驱动的学科。新手经常被建议掌握 Airflow、Spark、Kafka……

    #data engineering #data pipelines #architecture #Airflow #Spark #Kafka #dbt #cloud platforms #software design #scalable systems
  • 0个月前 · software

    数据架构师大师专业工作簿

    概述:我构建了一个模块化、可审计的数据工程项目,并希望与社区分享。特性——干净的、生产级别的 Python——SQL pat...

    #data engineering #ETL #ELT #Python #SQL #data pipelines #open source #GitHub #modular design #debugging
  • 1个月前 · software

    大规模收集真实旅游列表和价格:开发者指南——地理精准数据聚合

    旅游数据聚合中的地理上下文挑战 如果你曾尝试从全球旅行平台——Booking.com、Airbnb、Agoda、Expedia——聚合数据——...

    #data aggregation #web scraping #geo-location #residential proxies #tourism data #price scraping #data engineering #API design
  • 1个月前 · software

    使用 Python 构建可靠的环境数据累积管道

    《Building a Reliable Environmental Data Accumulation Pipeline with Python》封面图片 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gra...

    #python #etl #data-pipeline #environmental-data #us-epa #pollution-analysis #data-engineering
  • 1个月前 · software

    为什么幂等性在数据工程中如此重要

    在数据工程中,失败是常态:作业崩溃,网络超时,Airflow 重试任务,Kafka 重放消息,backfills 重新运行数月的数据。

    #idempotency #data engineering #Airflow #Kafka #Spark #retry logic #data pipelines #distributed systems

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026