Definir el problema y métrica
Regresión |
Clasificación |
Clasificación binaria | Clasificacón multietiqueta | |
---|---|---|---|---|
Descripción | Predecir cualquier valor medible | Predecir 1 clase entre muchas | Predecir sí/no | Predecir varias clases entre muchas |
Métricas comunes |
|
|
|
|
Datasets |
- Series temporales
Estos son los tipos de problema más comunes a resolver.
Métricas
Métricas de clasificación
- AUC no es derivable
Métricas de regresión
Mean Absolute Error (MAE) | Mean Squared Error (MSE) |
---|---|
Métrica | Error plot for 5, 6, 8, 9, 27 | Derivable | Mejor Constante | Equivalente | |
---|---|---|---|---|---|
MAE | Mean Absolute Error | ✔️ | Median (8) |
||
MSE | Mean Squared Error | ✔️ | Mean (11) |
RMSE, R-squared |
|
MAPE | Mean Absolute Percentage Error | ✔️ | Weighted median (6) |
||
MSPE | Mean Square Percentage Error | ✔️ | Weighted mean (6.6) |
||
MSLE | Mean Square Logarithmic Error | ✔️ | log(mean) (9.11) |
RMSLE | |
R2 | R-squared | ✔️ | |||
r | Spearman’s Rank Correlation Coef | ❌ | |||
p | Pearson Correlation Coef | ? |
Información adicional
- Métricas de Clasificación
- Métricas de Regresión
- Métricas de Ranking
- Learning to Rank Overview
- Paper Learning to Rank using Gradient Descent: Original paper about pairwise method for AUC optimization
- Paper From RankNet to LambdaRank to LambdaMART: Overview of further developments of RankNet
- RankLib: Implementación de los 2 papers anteriores.
- Métricas de Clustering
Fuga de datos
La fuga de datos conocida como Data Leakage en inglés, es cuando se introducen datos los cuales son imposibles de disponer en la vida real.
- Perfect score script used to probe leaderboard
- Page about data leakages on Kaggle
- Another page about data leakages on Kaggle