Exploratory Data Analysis
El Análisis Exploratorio de Datos (por sus siglas EDA en inglés) se encarga de explicar y visualizar con gráficas todo lo posible acerca de los datos. Es casi obligatoria realizar este EDA en cualquier proyecto de análisis de datos. En este capítulo veremos cuáles son las técnicas y herramientas más comunes para realizar nuestras visualizacionbes en Python.
Librerías
Otros
📊 Gráficas
Ver Python Graph Gallery y From Data to Viz
Distribution
Histogram | Density plot | Box plot | Violin plot |
---|---|---|---|
df.plot.hist() sns.distplot() |
df.plot.kde() sns.kdeplot() |
df.plot.box() sns.boxplot() |
sns.violinplot() |
Correlation
Scatterplot | Heatmap | Correlogram | Bubble | Connected Scatter | 2D Density |
---|---|---|---|---|---|
plt.scatter() sns.scatterplot() |
Ranking
Bar plot | Lollipop plot | Parallel coords. | Radar chart | Word cloud |
---|---|---|---|---|
plt.scatter() sns.scatterplot() |
parallel_coordinates(df, 'cls') |
Grupos
Stacked bar plot | Pie chart | Donut chart | Dendrogram | Treemap | Venn diagram |
---|
EDA no supervisado
- Unsupervised Learning in Sklearn
- Matrix Factorization:
- t-SNE:
- Comparison of Manifold Learning methods (sklearn) (sklearn example)
- tSNE with different perplexities (sklearn example)
- How to Use t-SNE Effectively: distill.pub blog
- tSNE homepage (Laurens van der Maaten)
- Multicore t-SNE implementation
- Interactions:
- Facebook Research’s paper about extracting categorical features from trees
- Feature transformations with ensembles of trees (sklearn example) Creo que es parecido a M5
Referencias