Variable numérica: Distribución

Histogram Density plot Box plot Violin plot
df.plot.hist()
sns.distplot()
df.plot.kde()
sns.kdeplot()
df.plot.box()
sns.boxplot()
sns.violinplot()

Probplots

Una forma más avanzada de ver si la distribucion sigue una distribución normal, son los probability plots (o simplemente probplots). Existen 2 tipos

  • QQ plot: “Quantile-Quantile” plot
  • PP plot:

import scipy.stats as stats
stats.probplot(x=df.variable, dist=stats.norm(), plot=plt)

Ejercicio: Coger una varible con distribucion no normal, palicarle el log y el boxcox para ver cual ajusta mejor a una distr normal.

Skewness .skew()

Otra forma de ver si la variable no sigue una distribucion normal es ver su Skewness.

skewed_feats = df[num_feats].apply(lambda x: x.dropna().skew()).sort_values(ascending=False)

Variable Numérica: Evolución

Line chart Area chart Stacked area chart Stream graph

El grafico de index vs value, es decir, el numero de la fila contra el valor de la variable es especialmente util para:

  • Ver la evolucion de una variable, si hay alg’un patron temporal
  • Ver si el dataset fue mezlado o no (shuffled)
plt.plot(x,".") plt.scatter(range(len(x)), x, c=y)