Python NumPy alapok
Source: Dev.to
Bevezetés
A NumPy elengedhetetlen eszköz az adatelemzésben és az AI területén. Számos alapvető statisztikai függvényt tartalmaz, amelyekkel könnyedén számíthatunk különböző mutatókat, például:
- minimum és maximum
- átlag
- módusz
- medián
- kvartilisek
- interkvartilis terjedelem
- szórás
- relatív szórás
- outlierek kiszűrése
- korreláció
- kovariancia
Ha szeretnél többet megtudni a módusz, medián és a korreláció fogalmairól, olvasd el a következő bejegyzéseket:
Telepítés
A könyvtárak telepítéséhez nyisd meg a parancssort (Windows) vagy a terminált (Linux) és futtasd a következő parancsokat:
pip install numpy
pip install scipy
Alapvető statisztikai műveletek
import numpy as np
from scipy import stats
# numpy array létrehozása
x = np.array([1, 2, 3, 4, 7, 7, 7, 9, 13, 15])
# minimum és maximum
minimum = np.min(x)
maximum = np.max(x)
# módusz, medián és átlag
mode = stats.mode(x).mode[0]
median = np.median(x)
mean = np.mean(x)
# kvartilisek
q1 = np.percentile(x, 25) # 25. percentilis
q3 = np.percentile(x, 75) # 75. percentilis
# interkvartilis terjedelem
iqr = q3 - q1
# populációs szórás
std = np.std(x)
# minta szórás (ddof=1)
std_sample = np.std(x, ddof=1)
# relatív szórás
rstd = std / mean
Outlierek kiszűrése
Az outlierek szűrése egyszerű vektoralapú maszkolással történik.
import numpy as np
x = np.array([1, 60, 65, 70, 75, 80, 85, 400])
q1 = np.percentile(x, 25)
q3 = np.percentile(x, 75)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
no_outliers = x[(x > lower) & (x
Megjegyzés: A mátrixok indexelése nullától indul, így a [0, 1] elem a két változó közötti kapcsolatot adja vissza. A saját magukkal vett kovariancia megegyezik a varianciával (szórásnégyzet).