El proyecto core es realmente importante porque si sigues todos los pasos de análisis de datos uno por uno.
La descripción, la inferencia (comparativa, relacional y causal) y por último el machine learning supervisado.
Dominando estas facetas en profundidad del proyecto core te dará todo lo que necesitas saber para tener las bases más que sólidas para poder ampliar conocimientos con otras técnicas y métodos.
Y es precisamente el objetivo de este bloque: ampliar las posibilidades de los datos con el uso de los proyectos satélite.
Los proyectos satélite los podemos dividir en:
- 1- Proyecto de clustering
- 2- Proyecto o técnicas de reducción dimensional
- 3- Proyecto de reglas de asociación
- 4- Predicciones de series temporales
Te presento las técnicas que usamos con nuestros clientes y tenemos validadas. Faltaría otro tipo de proyecto como los recomendadores, análisis de texto, análisis de imágenes y deep learning
Los proyectos que estamos planteando son proyectos del machine learning clásico que bien implementado pueden dar mucho valor a tus proyectos o a tus clientes.
¡Te dejo todo el material de este Bloque IV!
El proyecto de clustering nos permite encontrar grupos similares a partir de características que dispones. Por ejemplo, nos permite crear grupos similares de clientes, de productos, de pacientes, de países, de partidos políticos etc...
Al final a partir de unas características (features) encontrar grupos similares estadísticamente.
Estos son los pasos de un proyecto de clustering.
FASE 1. PLANTEAMIENTO PROYECTO
- Plantear el problema
- Definir la estructura de datos
- Definir las variables que vas a usar como características
FASE 2. ESTRUCTURAR LA TABLA DE DATOS
- Lectura e importación de datos
- Limpieza de datos (Imputar valores perdidos, cambiar formatos de variables …)
FASE 3. DESCRIPCIÓN / EXPLORACIÓN
- Descripción inteligente. Visualizar relaciones entre variables. Visualizar el PCA. Visualizar MDS
- Seleccionar las variables según la descripción
FASE 4. CLUSTERING E INTERPRETACIÓN
- Técnicas de clustering
- Descripción de los clusters
Principalmente vas a descubrir qué es el PCA (principal componente analysis) y qué utilidades tienes.
El PCA se utiliza para explorar datos, analizar el nivel de variabilidad y ruido de las variables o como transformación dentro del training de algoritmos supervisados.
En la sesión te cuento sus aplicaciones y el paso a paso:
El objetivo que persigue este tipo de proyectos es encontrar reglas que te permitan decidir, cuando paso A y B entonces pasa C, cuantificando la probabilidad y la confianza en la regla para encontrar patrones de los datos.
Tenemos dos tipos de técnicas principales para atacar el problema:
- Las reglas a priori
- Los árboles de clasificación
Las reglas a priori trabajan solo con variables cualitativas. Si tienes variables numéricas tendrías que categorizarlas primero.
En cambio, los árboles de clasificación no tienen problema en el tipo de variables. Pueden usarse tanto con variables numéricas como con variables cualitativas.
El problema de regla de asociación lo podemos dividir en dos casos:
- Caso1 – cuando no tenemos variable respuesta como tal
- Caso2 – cuando tenemos variable repuesta
CASO1. NO TENEMOS VARIABLE RESPUESTA (CASO NO SUPERVISADO)
- En este caso tenemos que utilizar si o si las reglas a priori.
CASO 2. TENEMOS VARIABLE RESPUESTA (CASO SUPERVISADO)
- Si la variable es cualitativa o tenemos una variable numérica como respuesta y la podemos categorizar à Podemos usar reglas a priori o árboles clasificadores
- Si tu variable respuesta tiene que ser si o si numérica tendremos que usar árboles de clasificación
VÍDEO DE REGLAS DE ASOCIACIÓN
VÍDEO DE ÁRBOLES DE DECISIÓN
En esta sesión te explico la parte básica de la predicción de series temporales.
Es toda una ciencia poder predecir series temporales pero con esta sesión tienes el paso a paso básico de un proyectos de predicción de series temporales.
Los pasos son similares al proyecto core ya que estamos delante de un proyecto de regresión 🙂
¡A por ello!
Escoge como mínimo 1 proyecto del que acabas de conocer y desarrolla la metodología para tus propios datos.
Usa el PATH de R o PATH de Python con las plantillas que usamos en nuestros proyectos 🙂