机器学习中的数据泄漏

发布: 1个月前 (2025年12月28日 GMT+8 21:45)

1 分钟阅读

Source: Dev.to

Sering kali mentee melakukan kesalahan dasar dalam alur kerja Machine Learning: Exploratory Data Analysis (EDA) → preprocessing → split dataset → buat model → evaluasi. Masalah yang muncul biasanya terletak pada data testing yang secara tidak sengaja sudah diketahui oleh model saat proses training. Dalam Machine Learning, hal ini disebut Data Leakage.

Apa itu Data Leakage?

Data Leakage terjadi ketika informasi dari data testing masuk ke dalam proses training, sehingga model “melihat” data yang seharusnya tidak diketahui. Masalah ini termasuk dalam kategori Train‑Test Contamination, misalnya ketika nilai rata‑rata atau standar deviasi data testing sudah dipakai saat proses standarisasi.

Contoh: Standarisasi yang Salah

Formula standarisasi:

# Standarisasi yang benar
x_scaled = (x - mean) / std

Jika standarisasi dilakukan sebelum memisahkan data menjadi train dan test set, maka mean dan std dihitung dari seluruh data. Akibatnya model secara tidak langsung mengintip informasi dari data testing selama training.

Cara Menghindari Data Leakage

Pisahkan data menjadi train set dan test set terlebih dahulu。
Fit scaler (misalnya StandardScaler) hanya pada data training。
Gunakan scaler yang sudah di‑fit untuk transform data training dan data testing secara terpisah。

Dengan langkah ini, model tetap “buta” terhadap data testing selama proses pelatihan, sehingga evaluasi yang diperoleh mencerminkan performa yang sebenarnya。

机器学习中的数据泄漏

Apa itu Data Leakage?

Contoh: Standarisasi yang Salah

Cara Menghindari Data Leakage

相关文章

机器学习中的模型评估、模型选择和算法选择

ML模型：为什么你的预测是好的……直到它不是

我如何在我们的数据中发现了1,370名欺诈者（并为公司节省了51,000美元）

10个 AI 术语，帮助你看起来不像完全迷失