📊 Análisis Univariante
Variable numérica: Distribución
Histogram | Density plot | Box plot | Violin plot |
---|---|---|---|
df.plot.hist() sns.distplot() |
df.plot.kde() sns.kdeplot() |
df.plot.box() sns.boxplot() |
sns.violinplot() |
Probplots
Una forma más avanzada de ver si la distribucion sigue una distribución normal, son los probability plots (o simplemente probplots). Existen 2 tipos
- QQ plot: “Quantile-Quantile” plot
- PP plot:
import scipy.stats as stats
stats.probplot(x=df.variable, dist=stats.norm(), plot=plt)
Ejercicio: Coger una varible con distribucion no normal, palicarle el log y el boxcox para ver cual ajusta mejor a una distr normal.
Skewness .skew()
Otra forma de ver si la variable no sigue una distribucion normal es ver su Skewness.
skewed_feats = df[num_feats].apply(lambda x: x.dropna().skew()).sort_values(ascending=False)
Variable Numérica: Evolución
Line chart | Area chart | Stacked area chart | Stream graph |
---|
El grafico de index vs value, es decir, el numero de la fila contra el valor de la variable es especialmente util para:
- Ver la evolucion de una variable, si hay alg’un patron temporal
- Ver si el dataset fue mezlado o no (shuffled)
plt.plot(x,".") | plt.scatter(range(len(x)), x, c=y) |