Llegamos a uno de los puntos cruciales de la mentoría. Vamos a desvelar el proyecto core y el paso a paso que uso con mis clientes y proyectos.
Te recuerdo que vamos a explicar el clasificador, el proyecto que se usa o se puede usar en el 90% de los casos.
Este método está validado y trabajado. Durante los vídeos de esta sesión vamos a diseñar la plantilla del entregable 5 y 6 para que la puedas aplicar en caso de que tu proyecto sea el clasificador.
¡Sin más preámbulos vamos a por ello!
En este vídeo vas a ver cómo realizar el feature selection. Te recuerdo que el feature selection lo puedes realizar de dos maneras:
1. Feature selection univariada ( ANOVA/Kruskall Wallis = Cuantitativa vs salida o Chi Cuadrado = Cualitativas vs salida, MI = Mutual information)
- Quitar las variables con MI = 0
- Quitar las variables con p-valores >25% = 0.25
2. Feature selection multivariado:
- RFE - recursive feature elimination RANDOM FOREST
- Modelo logístico (caso binario) mejor modelo según el BIC. --> con pocos datos y pocas variables
- Boruta - rfe mejorado
Ahora lo vamos a implementar en el ejemplo paso a paso:
En un clasificador es muy importante balancear los datos, ya que de eso depende el resultado del clasificador final.
Vamos a implementar el balanceo. Siempre recomiendo el downsampling.
¡A por ello!
Primer cálculo de algoritmos de baseline.
A partir de estos resultados lo más probable es que los mejoremos.
Hacemos un primer cálculo sin estandarizar.
Estos son los algorimos básicos de baseline que te propongo:
- Logistic regresion - LR
- Logistic regresion con regularización elástica - LR_ELASTIC
- Linear discriminant analysis - LDA
- Los k vecinos mas cercanos - KNN
- Naive bayes - NB
- Árbol de clasificación - CART
- Support vector machine radial - SVM
Los algoritmos avanzados que vamos a utilizar son los siguientes:
- Random Forest - RF
- Ada Boost Classifier - AB
- Stochastic Gradient Boosting - GBM
- Extra tree classifier - ET