Llegamos a uno de los puntos cruciales de la mentoría. Vamos a desvelar el proyecto core y el paso a paso que uso con mis clientes y proyectos.
Te recuerdo que vamos a explicar el clasificador, el proyecto que se usa o se puede usar en el 90% de los casos.
Este método está validado y trabajado. Durante los vídeos de esta sesión vamos a diseñar la plantilla del entregable 5 y 6 para que la puedas aplicar en caso de que tu proyecto sea el clasificador.
¡Sin más preámbulos vamos a por ello!
Vamos a por la feature selection / selección de variables.
Este paso es de vital importancia para poder tener un algoritmo más robusta y sin usar información similar en diferentes variables que genere ruido en el training de los algorimos.
Los pasos que podemos seguir son los siguientes:
- 1. Feature selection univariada ( ANOVA/Kruskall Wallis = Cuantitativa vs salida o - - Chi Cuadrado = Cualitativas vs salida, MI = Mutual information)
- - Quitar las variables con MI = 0
- - Quitar las variables con p-valores >25% = 0.25
- 2. Feature selection multivariado:
- - RFE - recursive feature elimination RANDOM FOREST
- - Modelo logístico (caso binario) mejor modelo según el BIC. --> con pocos datos y pocas variables
- - Boruta
A continuación tienes el vídeo para aplicar la selección de variables con Boruta. Muy recomendable.
Una vez hemos seleccionado los datos es momento de preparar el training y entrenar el primer algoritmo para que veas como funciona el proceso en la librería Caret.
Por último vamos a aplicar el training de algoritmos de básicos y algoritmos avanzados.
Estos son los algoritmos que vamos a utilizar:
Primer cálculo de algoritmos de baseline.
A partir de estos resultados lo más probable es que los mejoremos.
Hacemos un primer cálculo sin estandarizar.
Estos son los algorimos básicos de baseline que te propongo:
- Logistic regresion - glm
- Logistic regresion con regularización elástica - glmnet
- Linear discriminant analysis - lda
- Los k vecinos mas cercanos - knn
- Naive bayes - nb
- Árbol de clasificación - rpart
- Support vector machine radial - svmRadial
Repetiremos el training con la estandarización de los datos.
Y finalmente aplicaremos algoritmos avanzados como:
Estos son los algorimos básicos de baseline que te propongo y usando la estandarización de los datos:
- Logistic regresion - glm
- Logistic regresion con regularización elástica - glmnet
- Linear discriminant analysis - lda
- Los k vecinos mas cercanos - knn
- Naive bayes - nb
- Árbol de clasificación - rpart
- Support vector machine radial - svmRadial