Introducción al Machine Learning

Software

Scikit-learn es probablemente la librería más útil para Machine Learning en Python, es de código abierto y es reutilizable en con otras librerías. Proporciona una gran gama de algoritmos para el preprocesado de datos, aprendizaje supervisado, análisis no supervisado, y mucho más.

Ingeniería de características = CREATIVIDAD + CONOCIMIENTO DEL DOMINIO

La ingeniería de características (Feature Engineering) es la generación de nuevas características en base a las ya existentes. Esto facilita el trabajo a nuestros modelos.

  • Si tienes el precio de la casa y los metros cuadrados, puedes añadir el precio del metro cuadrado.
  • Si tines la distancia en el eje x e y, puedes añadir la distancia directa por pitagoras.
  • Si tines precios, puedes añanir la parte fraccionaria pq es muy subjetiva en la gente.

Fuga de datos

La fuga de datos conocida como Data Leakage en inglés, es cuando se introducen datos los cuales son imposibles de disponer en la vida real.