CLUB AD Casos Prácticos Club AD 09/10/2025 – Mapa de Técnicas de Inferencia y Machine Learning con la IA

RESUMENES TÉCNICAS / MATERIAL DE LA SESIÓN

Mapa de Tests y Modelos Estadísticos

Mapa de tests y modelos estadísticos

Documento navegable con fondo oscuro. Columnas: Test / Modelo, Variable dependiente, Variables independientes, Tipo, Restricciones.

1) Comparación de medias

Comparación de medias agrupa las técnicas que permiten evaluar si el promedio de una variable cuantitativa difiere entre uno o más grupos. Estas pruebas son útiles cuando se quiere comparar, por ejemplo, la nota media entre dos clases o el nivel de glucosa en distintos tratamientos.

Ejemplo: Un t-test para dos grupos independientes permite comprobar si la media de colesterol es diferente entre hombres y mujeres.

VD: Cuantitativa VI: Categórica (grupos) o Repetidas Incluye t-tests, ANOVA, no paramétricos

Test / Modelo	Variable dependiente	Variables independientes	Tipo	Restricciones
T-test de una muestra	1 Cuantitativa	No Aplica	Paramétrico	Normal
T-test 2 grupos independientes	1 Cuantitativa	1 Factor de dos grupos	Paramétrico	Normal por grupos e igualdad de varianzas
T-test 2 grupos dependientes	1 Cuantitativa o 2 medidas repetidas	1 Factor dos grupos o No Aplica	Paramétrico	Normal por grupos
One way ANOVA	1 Cuantitativa	1 Factor de 3 o más grupos	Paramétrico	Normal por grupos e igualdad de varianzas
Tukey HSD o Comparación Pair Wise			Paramétrico o NO paramétrico
ANOVA de medidas repetidas	1 Cuantitativa o 3 medidas repetidas	1 Factor 3 o más grupos o No Aplica	Paramétric	Normal por grupos

2) Comparación de proporciones

Comparación de proporciones se utiliza cuando la variable de interés es categórica (éxito/fracaso, sí/no) y queremos ver si la proporción difiere de un valor teórico o entre distintos grupos.

Ejemplo: Un test de proporciones permite evaluar si el porcentaje de fumadores es mayor en jóvenes que en adultos.

VD: Categórica dicotómica/multinomial VI: Grupo(s) o referencia Incluye bondad de ajuste y proporciones

Test / Modelo	Variable dependiente	Variables independientes	Tipo	Restricciones
Chi Cuadrado Bondad de Ajuste	1 factor	No Aplica		No Tiene
Chi Cuadrado de Pearson	1 factor	1 factor		Valores esperadas en todas las casillas >5
Test de McNemar	1 factor de dos grupos	1 Factor de dos grupos		Valores esperadas en todas las casillas >10
Test binomial exacto	Categórica dicotómica	Valor de referencia	No Paramétrico	Ensayos independientes
Z-test 1 proporción	Categórica dicotómica	Valor de referencia	Paramétrico	n grande (aprox normal)
Z-test 2 proporciones	Categórica dicotómica	Grupo (2 niveles)	Paramétrico	n grande y muestras independientes

3) Correlación

Correlación mide la intensidad y dirección de la relación entre dos variables (cuantitativas u ordinales). No implica causalidad, solo asociación.

Ejemplo: El coeficiente de Pearson permite ver si existe relación lineal entre las horas de estudio y la nota obtenida.

VD/VI: Cuantitativas u ordinales Pearson, Spearman, Kendall

Test / Modelo	Variable dependiente	Variables independientes	Tipo	Restricciones
Chi Cuadrado de Pearson	1 factor	1 factor		Valores esperadas en todas las casillas >5
Chi Cuadrado de Pearson con corrección de Yates	1 factor de dos grupos	1 factor de dos grupos		Algún valor esperado <5, tablas de contingencia 2x2
Chi Cuadrado de Pearson con Pendiente	1 factor de dos grupos	1 Factor Ordinal		Valores esperadas en todas las casillas >5
Pearson	1 Cuantitativa	1 Cuantitativa	Paramétrico	Todas normales
Spearman			NO paramétrico	Alguna no Normal
Spearman	1 Cuantitativa	1 Factor Ordinal	No Paramétrico	No Aplica
Kendall	1 Factor Ordinal	1 Factor Ordinal	No Paramétrico	No Aplica

4) Asociación de proporciones

Asociación de proporciones estudia si dos o más variables categóricas están relacionadas o son independientes. Estas pruebas trabajan con tablas de contingencia.

Ejemplo: El Chi-cuadrado de independencia evalúa si el hábito de fumar depende del género.

VD/VI: Categóricas Chi-cuadrado, Fisher, medidas de tamaño de efecto

Test / Modelo	Variable dependiente	Variables independientes	Tipo	Restricciones
Chi Cuadrado de Pearson	1 factor	1 factor		Valores esperadas en todas las casillas >5
Chi Cuadrado de Pearson con corrección de Yates	1 factor de dos grupos	1 factor de dos grupos		Algún valor esperado <5, tablas de contingencia 2x2
Test Exacto de Fisher	1 factor de dos grupos	1 factor de dos grupos		Tablas de contingencias 2x2
Chi Cuadrado de Pearson con Pendiente	1 factor de dos grupos	1 Factor Ordinal		Valores esperadas en todas las casillas >5
Chi Cuadrado de Linealidad de Mantel-Haenszel	1 factor	1 factor		Valores esperadas en todas las casillas >5
Chi Cuadrado, test de independencia	1 Factor	1 Factor
Cramer's V	Categórica	Categórica	Medida de asociación	Derivada de Chi-cuadrado
Phi de Pearson (2x2)	Categórica (2x2)	Categórica	Medida de asociación	Derivada de Chi-cuadrado

5) Modelos causales basados en GLM

Modelos causales basados en GLM (Generalized Linear Models) permiten modelar relaciones más complejas entre variables dependientes e independientes, abarcando regresión lineal, logística, de Poisson, entre otros.

Ejemplo: Una regresión logística puede estimar la probabilidad de que un paciente tenga hipertensión en función de edad, peso y tabaquismo.

Familias: Normal, Binomial, Poisson, Neg. Binomial Links: identidad, logit, log Incluye mixtos (GLMM)

Test / Modelo	Variable dependiente	Variables independientes	Tipo	Restricciones
Nombre del Modelo	Varaible Dependiente o Respuesta	Variable Independiente o de estudio	GLM	Restricciones
Regresión Lineal Simple	1 Cuantitativa	1 Cuantitativa	GLM (Normal)	Normal
Regresión Lineal Múltiple	1 Cuantitativa	2 o más Cuantitativas	GLM (Normal)	Normales e independientes
Regresión Lineal GLM	1 Cuantitativa	2 o más Cuantitativas	GLM (Normal)
Regresión Lineal Mixta GLM	1 Cuantitativa	2 o más Cuantitativas + factores	GLMM (Mixto)
Modelo de Poisson o Regresión de Poisson - GLM	1 Cuantitativa / Contaje	Cuantitativas y/o factores	GLM (Poisson)
Modelo Binomial Negativa (Poisson) - GLM	1 Cuantitativa / Contaje	Cuantitativas y/o factores	GLM (Poisson)
Modelo Logístico o Regresión Logística Binomial - GLM	1 factor de dos grupos	Cuantitativas y/o factores	GLM (Binomial)
Modelo Logístico Mutinomial - GLM	1 factor de más de dos grupos	Cuantitativas y/o factores	GLM (Binomial)
Modelo Logístico Ordinal - GLM	1 factor ordinal	Cuantitativas y/o factores	GLM (Ordinal)

Mapa de ML — Índice lateral y tablas apiladas

🤖 Mapa de ML

Mapa de Técnicas de Machine Learning

Índice lateral navegable con todos los puntos y subpuntos. Tablas apiladas: primero básicas y debajo avanzadas, para evitar solapamientos.

1) Supervisados

Aprendizaje supervisado: tenemos X y una y etiquetada. Objetivo: predecir y generalizar.

Objetivo etiquetado (y)Regresión y ClasificaciónBásicas y Avanzadas

Regresión

Regresión: y continua. Métricas: MAE, RMSE, R².

1.1 Regresión — Técnicas básicas

Técnica	Tipo	Variables	Descripción breve	Supuestos/Notas	Casos de uso típicos
Regresión lineal (OLS)	Básica (GLM)	y continua; X num/categ	Modelo lineal mínimo cuadrados.	Linealidad, homocedasticidad.	Precios de vivienda, salarios
Ridge	Básica (GLM reg.)	y continua; X múltiples	Penalización L2.	λ; reduce varianza.	Riesgo crediticio con muchas X
Lasso	Básica (GLM reg.)	y continua; X múltiples	Penalización L1 (sparsidad).	λ; selección de variables.	Selección de genes/biomedicina
Elastic Net	Básica (GLM reg.)	y continua; X múltiples	Mix L1+L2.	Equilibra selección/estabilidad.	Modelos con colinealidad
KNN regresión	Básica	y continua; X esc.	Promedio de k vecinos.	Escalado; elegir k.	Temperatura por estaciones cercanas
Árbol de decisión (reg.)	Básica	y continua; X mixtas	Particiones recursivas.	Riesgo de sobreajuste.	Reglas de negocio sobre ventas
SVR	Básica (kernel)	y continua; X esc.	Márgenes con ε-kernel.	Elegir C, ε, kernel.	Demanda no lineal
Regresión Poisson	Básica (GLM)	y conteo; X mixtas	Conteos con link log.	Media≈varianza.	Visitas/día a web

1.1 Regresión — Técnicas avanzadas (bagging/boosting/deep)

Técnica	Tipo	Variables	Descripción breve	Supuestos/Notas	Casos de uso típicos
Random Forest (reg.)	Avanzada (bagging)	y continua; X mixtas	Promedio de árboles bootstrap.	Poco tuning; menos interpretable.	Forecast ventas, precios complejos
Gradient Boosting (reg.)	Avanzada (boosting)	y continua; X mixtas	Aprendizaje aditivo de árboles.	Ajustar LR y profundidad.	Churn, scoring clientes
XGBoost/LightGBM/CatBoost (reg.)	Avanzada (boosting)	y continua; X mixtas	Implementaciones optimizadas.	Regularización; cuidado overfit.	Competencias tabulares
Redes neuronales (reg.)	Avanzada (deep)	y continua; X variadas	MLP/arquitecturas densas.	Requiere datos & regularización.	Imagen/series para regresión

Clasificación

Clasificación: y categórica. Métricas: AUC, F1, precisión, recall, log-loss.

1.2 Clasificación — Técnicas básicas

Técnica	Tipo	Variables	Descripción breve	Supuestos/Notas	Casos de uso típicos
Regresión logística	Básica (GLM)	y binaria; X mixtas	Modela log-odds; probas calibradas.	Linealidad en logit; regularización.	Fraude, spam
LDA / QDA	Básica	y categórica; X continuas	Fronteras lineales/cuadráticas.	Normalidad; covarianzas.	Diagnóstico (enfermo/sano)
KNN clasificación	Básica	y categórica; X esc.	Voto de vecinos.	Elegir k; escalado.	Textos simples, baseline
Árbol de decisión (clf.)	Básica	y categórica; X mixtas	Particiones por impureza.	Intuitivo; sobreajuste.	Aprobación crédito
SVM (clasificación)	Básica (kernel)	y categórica; X esc.	Maximiza margen.	Elegir C, γ; escalado.	Imágenes de dígitos
Naive Bayes	Básica	y categórica; X mixtas	Independencia condicional.	Rápido; menos preciso si dependencia.	Clasificación de texto rápida

1.2 Clasificación — Técnicas avanzadas (bagging/boosting/deep)

Técnica	Tipo	Variables	Descripción breve	Supuestos/Notas	Casos de uso típicos
Random Forest (clf.)	Avanzada (bagging)	y categórica; X mixtas	Voto de árboles.	Ajustar n_trees y mtry.	Riesgo crediticio, churn
Gradient Boosting (clf.)	Avanzada (boosting)	y categórica; X mixtas	Árboles aditivos.	LR, estimadores, profundidad.	Fraude, scoring
XGBoost/LightGBM/CatBoost (clf.)	Avanzada (boosting)	y categórica; X mixtas	Muy potentes en tabular.	Regularización clave.	Grandes datasets tabulares
Redes neuronales (clf.)	Avanzada (deep)	y categórica; X varias	MLP/CNN/RNN según dominio.	Más datos & tuning.	Imagen, texto, voz

2) No supervisados

No supervisado: sin etiquetas; buscamos estructura latente (clústeres, reducción, asociaciones, anomalías).

Sin etiquetasEstructura latente

2.1 Clustering

Técnica	Tipo de datos	Descripción breve	Notas	Casos de uso típicos
K-means	Numéricos (esc.)	Centroides minimizando varianza.	Elegir k; sensible a outliers.	Segmentación de clientes
K-medoids (PAM)	Num./Distancias	Usa medoides.	Robusto a outliers.	Segmentación robusta
GMM	Numéricos	Mezclas gaussianas.	Seleccionar componentes.	Clustering probabilístico (genes)
Jerárquico (Ward)	Num./Distancias	Dendrograma aglomerativo.	O(n^2).	Taxonomía de documentos
DBSCAN/HDBSCAN	Num./Distancias	Densidad + ruido.	eps/minPts.	Comunidades espaciales

2.2 Reducción dimensional

Técnica	Tipo de datos	Descripción breve	Notas	Casos de uso típicos
PCA	Num. (esc.)	Componentes ortogonales.	Lineal.	Compresión financiera
t-SNE	Num.	Preserva vecindad local.	Solo visualización.	Embeddings NLP en 2D
UMAP	Num.	Estructura local/global.	Sens. a params.	Proyección previa a clustering
Factor Analysis	Num.	Factores latentes.	Normalidad.	Psicometría/encuestas
Autoencoders	Num/Imagen/Texto	Codificador–decodificador.	Tuning y regularización.	Extracción de features

2.3 Reglas de asociación

Técnica	Datos	Descripción breve	Notas	Casos de uso típicos
Apriori	Transacciones	Itemsets y reglas (support/confidence/lift).	Umbrales altos para eficiencia.	Market basket en retail
FP-Growth	Transacciones	Árbol compacto de patrones.	Más eficiente que Apriori.	Recomendaciones en e-commerce

2.4 Recomendadores

Técnica	Datos	Descripción breve	Notas	Casos de uso típicos
CF basado en usuarios	Ratings/Interacciones	Vecindad de usuarios.	Arranque en frío.	Netflix (usuarios similares)
CF basado en ítems	Ratings/Interacciones	Similitud entre ítems.	Estable y escalable.	Amazon (ítems similares)
Matrix Factorization (SVD/ALS)	Matriz user×item	Factores latentes.	Regularización.	Spotify (factores)
Modelos híbridos	Metadatos + CF	Combina contenido + CF.	Complejos.	LinkedIn (híbridos)

2.5 Detección de anomalías

Técnica	Tipo de datos	Descripción breve	Notas	Casos de uso típicos
Isolation Forest	Tabular	Aísla outliers con árboles.	Poco tuning.	Fraude transaccional
One-Class SVM	Num. (esc.)	Frontera de datos normales.	Elegir ν; kernel.	Intrusos en redes
Elliptic Envelope	Num.	Supone gaussianidad.	Limitado si no normal.	Control de calidad
Autoencoders (reconstr.)	Secuencias/Imágenes	Alto error de reconstrucción.	Requiere datos normales.	Fallos en sensores

Anterior Tema

Volver a la Lección

Siguiente Tema