Mapa de tests y modelos estadísticos
Documento navegable con fondo oscuro. Columnas: Test / Modelo, Variable dependiente, Variables independientes, Tipo, Restricciones.
1) Comparación de medias
Comparación de medias agrupa las técnicas que permiten evaluar si el promedio de una variable cuantitativa difiere entre uno o más grupos. Estas pruebas son útiles cuando se quiere comparar, por ejemplo, la nota media entre dos clases o el nivel de glucosa en distintos tratamientos.
Ejemplo: Un t-test para dos grupos independientes permite comprobar si la media de colesterol es diferente entre hombres y mujeres.
| Test / Modelo | Variable dependiente | Variables independientes | Tipo | Restricciones |
|---|---|---|---|---|
| T-test de una muestra | 1 Cuantitativa | No Aplica | Paramétrico | Normal |
| T-test 2 grupos independientes | 1 Cuantitativa | 1 Factor de dos grupos | Paramétrico | Normal por grupos e igualdad de varianzas |
| T-test 2 grupos dependientes | 1 Cuantitativa o 2 medidas repetidas | 1 Factor dos grupos o No Aplica | Paramétrico | Normal por grupos |
| One way ANOVA | 1 Cuantitativa | 1 Factor de 3 o más grupos | Paramétrico | Normal por grupos e igualdad de varianzas |
| Tukey HSD o Comparación Pair Wise | Paramétrico o NO paramétrico | |||
| ANOVA de medidas repetidas | 1 Cuantitativa o 3 medidas repetidas | 1 Factor 3 o más grupos o No Aplica | Paramétric | Normal por grupos |
2) Comparación de proporciones
Comparación de proporciones se utiliza cuando la variable de interés es categórica (éxito/fracaso, sí/no) y queremos ver si la proporción difiere de un valor teórico o entre distintos grupos.
Ejemplo: Un test de proporciones permite evaluar si el porcentaje de fumadores es mayor en jóvenes que en adultos.
| Test / Modelo | Variable dependiente | Variables independientes | Tipo | Restricciones |
|---|---|---|---|---|
| Chi Cuadrado Bondad de Ajuste | 1 factor | No Aplica | No Tiene | |
| Chi Cuadrado de Pearson | 1 factor | 1 factor | Valores esperadas en todas las casillas >5 | |
| Test de McNemar | 1 factor de dos grupos | 1 Factor de dos grupos | Valores esperadas en todas las casillas >10 | |
| Test binomial exacto | Categórica dicotómica | Valor de referencia | No Paramétrico | Ensayos independientes |
| Z-test 1 proporción | Categórica dicotómica | Valor de referencia | Paramétrico | n grande (aprox normal) |
| Z-test 2 proporciones | Categórica dicotómica | Grupo (2 niveles) | Paramétrico | n grande y muestras independientes |
3) Correlación
Correlación mide la intensidad y dirección de la relación entre dos variables (cuantitativas u ordinales). No implica causalidad, solo asociación.
Ejemplo: El coeficiente de Pearson permite ver si existe relación lineal entre las horas de estudio y la nota obtenida.
| Test / Modelo | Variable dependiente | Variables independientes | Tipo | Restricciones |
|---|---|---|---|---|
| Chi Cuadrado de Pearson | 1 factor | 1 factor | Valores esperadas en todas las casillas >5 | |
| Chi Cuadrado de Pearson con corrección de Yates | 1 factor de dos grupos | 1 factor de dos grupos | Algún valor esperado <5, tablas de contingencia 2x2 | |
| Chi Cuadrado de Pearson con Pendiente | 1 factor de dos grupos | 1 Factor Ordinal | Valores esperadas en todas las casillas >5 | |
| Pearson | 1 Cuantitativa | 1 Cuantitativa | Paramétrico | Todas normales |
| Spearman | NO paramétrico | Alguna no Normal | ||
| Spearman | 1 Cuantitativa | 1 Factor Ordinal | No Paramétrico | No Aplica |
| Kendall | 1 Factor Ordinal | 1 Factor Ordinal | No Paramétrico | No Aplica |
4) Asociación de proporciones
Asociación de proporciones estudia si dos o más variables categóricas están relacionadas o son independientes. Estas pruebas trabajan con tablas de contingencia.
Ejemplo: El Chi-cuadrado de independencia evalúa si el hábito de fumar depende del género.
| Test / Modelo | Variable dependiente | Variables independientes | Tipo | Restricciones |
|---|---|---|---|---|
| Chi Cuadrado de Pearson | 1 factor | 1 factor | Valores esperadas en todas las casillas >5 | |
| Chi Cuadrado de Pearson con corrección de Yates | 1 factor de dos grupos | 1 factor de dos grupos | Algún valor esperado <5, tablas de contingencia 2x2 | |
| Test Exacto de Fisher | 1 factor de dos grupos | 1 factor de dos grupos | Tablas de contingencias 2x2 | |
| Chi Cuadrado de Pearson con Pendiente | 1 factor de dos grupos | 1 Factor Ordinal | Valores esperadas en todas las casillas >5 | |
| Chi Cuadrado de Linealidad de Mantel-Haenszel | 1 factor | 1 factor | Valores esperadas en todas las casillas >5 | |
| Chi Cuadrado, test de independencia | 1 Factor | 1 Factor | ||
| Cramer's V | Categórica | Categórica | Medida de asociación | Derivada de Chi-cuadrado |
| Phi de Pearson (2x2) | Categórica (2x2) | Categórica | Medida de asociación | Derivada de Chi-cuadrado |
5) Modelos causales basados en GLM
Modelos causales basados en GLM (Generalized Linear Models) permiten modelar relaciones más complejas entre variables dependientes e independientes, abarcando regresión lineal, logística, de Poisson, entre otros.
Ejemplo: Una regresión logística puede estimar la probabilidad de que un paciente tenga hipertensión en función de edad, peso y tabaquismo.
| Test / Modelo | Variable dependiente | Variables independientes | Tipo | Restricciones |
|---|---|---|---|---|
| Nombre del Modelo | Varaible Dependiente o Respuesta | Variable Independiente o de estudio | GLM | Restricciones |
| Regresión Lineal Simple | 1 Cuantitativa | 1 Cuantitativa | GLM (Normal) | Normal |
| Regresión Lineal Múltiple | 1 Cuantitativa | 2 o más Cuantitativas | GLM (Normal) | Normales e independientes |
| Regresión Lineal GLM | 1 Cuantitativa | 2 o más Cuantitativas | GLM (Normal) | |
| Regresión Lineal Mixta GLM | 1 Cuantitativa | 2 o más Cuantitativas + factores | GLMM (Mixto) | |
| Modelo de Poisson o Regresión de Poisson - GLM | 1 Cuantitativa / Contaje | Cuantitativas y/o factores | GLM (Poisson) | |
| Modelo Binomial Negativa (Poisson) - GLM | 1 Cuantitativa / Contaje | Cuantitativas y/o factores | GLM (Poisson) | |
| Modelo Logístico o Regresión Logística Binomial - GLM | 1 factor de dos grupos | Cuantitativas y/o factores | GLM (Binomial) | |
| Modelo Logístico Mutinomial - GLM | 1 factor de más de dos grupos | Cuantitativas y/o factores | GLM (Binomial) | |
| Modelo Logístico Ordinal - GLM | 1 factor ordinal | Cuantitativas y/o factores | GLM (Ordinal) |
Mapa de Técnicas de Machine Learning
Índice lateral navegable con todos los puntos y subpuntos. Tablas apiladas: primero básicas y debajo avanzadas, para evitar solapamientos.
1) Supervisados
Aprendizaje supervisado: tenemos X y una y etiquetada. Objetivo: predecir y generalizar.
Regresión
Regresión: y continua. Métricas: MAE, RMSE, R².
1.1 Regresión — Técnicas básicas
| Técnica | Tipo | Variables | Descripción breve | Supuestos/Notas | Casos de uso típicos |
|---|---|---|---|---|---|
| Regresión lineal (OLS) | Básica (GLM) | y continua; X num/categ | Modelo lineal mínimo cuadrados. | Linealidad, homocedasticidad. | Precios de vivienda, salarios |
| Ridge | Básica (GLM reg.) | y continua; X múltiples | Penalización L2. | λ; reduce varianza. | Riesgo crediticio con muchas X |
| Lasso | Básica (GLM reg.) | y continua; X múltiples | Penalización L1 (sparsidad). | λ; selección de variables. | Selección de genes/biomedicina |
| Elastic Net | Básica (GLM reg.) | y continua; X múltiples | Mix L1+L2. | Equilibra selección/estabilidad. | Modelos con colinealidad |
| KNN regresión | Básica | y continua; X esc. | Promedio de k vecinos. | Escalado; elegir k. | Temperatura por estaciones cercanas |
| Árbol de decisión (reg.) | Básica | y continua; X mixtas | Particiones recursivas. | Riesgo de sobreajuste. | Reglas de negocio sobre ventas |
| SVR | Básica (kernel) | y continua; X esc. | Márgenes con ε-kernel. | Elegir C, ε, kernel. | Demanda no lineal |
| Regresión Poisson | Básica (GLM) | y conteo; X mixtas | Conteos con link log. | Media≈varianza. | Visitas/día a web |
1.1 Regresión — Técnicas avanzadas (bagging/boosting/deep)
| Técnica | Tipo | Variables | Descripción breve | Supuestos/Notas | Casos de uso típicos |
|---|---|---|---|---|---|
| Random Forest (reg.) | Avanzada (bagging) | y continua; X mixtas | Promedio de árboles bootstrap. | Poco tuning; menos interpretable. | Forecast ventas, precios complejos |
| Gradient Boosting (reg.) | Avanzada (boosting) | y continua; X mixtas | Aprendizaje aditivo de árboles. | Ajustar LR y profundidad. | Churn, scoring clientes |
| XGBoost/LightGBM/CatBoost (reg.) | Avanzada (boosting) | y continua; X mixtas | Implementaciones optimizadas. | Regularización; cuidado overfit. | Competencias tabulares |
| Redes neuronales (reg.) | Avanzada (deep) | y continua; X variadas | MLP/arquitecturas densas. | Requiere datos & regularización. | Imagen/series para regresión |
Clasificación
Clasificación: y categórica. Métricas: AUC, F1, precisión, recall, log-loss.
1.2 Clasificación — Técnicas básicas
| Técnica | Tipo | Variables | Descripción breve | Supuestos/Notas | Casos de uso típicos |
|---|---|---|---|---|---|
| Regresión logística | Básica (GLM) | y binaria; X mixtas | Modela log-odds; probas calibradas. | Linealidad en logit; regularización. | Fraude, spam |
| LDA / QDA | Básica | y categórica; X continuas | Fronteras lineales/cuadráticas. | Normalidad; covarianzas. | Diagnóstico (enfermo/sano) |
| KNN clasificación | Básica | y categórica; X esc. | Voto de vecinos. | Elegir k; escalado. | Textos simples, baseline |
| Árbol de decisión (clf.) | Básica | y categórica; X mixtas | Particiones por impureza. | Intuitivo; sobreajuste. | Aprobación crédito |
| SVM (clasificación) | Básica (kernel) | y categórica; X esc. | Maximiza margen. | Elegir C, γ; escalado. | Imágenes de dígitos |
| Naive Bayes | Básica | y categórica; X mixtas | Independencia condicional. | Rápido; menos preciso si dependencia. | Clasificación de texto rápida |
1.2 Clasificación — Técnicas avanzadas (bagging/boosting/deep)
| Técnica | Tipo | Variables | Descripción breve | Supuestos/Notas | Casos de uso típicos |
|---|---|---|---|---|---|
| Random Forest (clf.) | Avanzada (bagging) | y categórica; X mixtas | Voto de árboles. | Ajustar n_trees y mtry. | Riesgo crediticio, churn |
| Gradient Boosting (clf.) | Avanzada (boosting) | y categórica; X mixtas | Árboles aditivos. | LR, estimadores, profundidad. | Fraude, scoring |
| XGBoost/LightGBM/CatBoost (clf.) | Avanzada (boosting) | y categórica; X mixtas | Muy potentes en tabular. | Regularización clave. | Grandes datasets tabulares |
| Redes neuronales (clf.) | Avanzada (deep) | y categórica; X varias | MLP/CNN/RNN según dominio. | Más datos & tuning. | Imagen, texto, voz |
2) No supervisados
No supervisado: sin etiquetas; buscamos estructura latente (clústeres, reducción, asociaciones, anomalías).
2.1 Clustering
| Técnica | Tipo de datos | Descripción breve | Notas | Casos de uso típicos |
|---|---|---|---|---|
| K-means | Numéricos (esc.) | Centroides minimizando varianza. | Elegir k; sensible a outliers. | Segmentación de clientes |
| K-medoids (PAM) | Num./Distancias | Usa medoides. | Robusto a outliers. | Segmentación robusta |
| GMM | Numéricos | Mezclas gaussianas. | Seleccionar componentes. | Clustering probabilístico (genes) |
| Jerárquico (Ward) | Num./Distancias | Dendrograma aglomerativo. | O(n^2). | Taxonomía de documentos |
| DBSCAN/HDBSCAN | Num./Distancias | Densidad + ruido. | eps/minPts. | Comunidades espaciales |
2.2 Reducción dimensional
| Técnica | Tipo de datos | Descripción breve | Notas | Casos de uso típicos |
|---|---|---|---|---|
| PCA | Num. (esc.) | Componentes ortogonales. | Lineal. | Compresión financiera |
| t-SNE | Num. | Preserva vecindad local. | Solo visualización. | Embeddings NLP en 2D |
| UMAP | Num. | Estructura local/global. | Sens. a params. | Proyección previa a clustering |
| Factor Analysis | Num. | Factores latentes. | Normalidad. | Psicometría/encuestas |
| Autoencoders | Num/Imagen/Texto | Codificador–decodificador. | Tuning y regularización. | Extracción de features |
2.3 Reglas de asociación
| Técnica | Datos | Descripción breve | Notas | Casos de uso típicos |
|---|---|---|---|---|
| Apriori | Transacciones | Itemsets y reglas (support/confidence/lift). | Umbrales altos para eficiencia. | Market basket en retail |
| FP-Growth | Transacciones | Árbol compacto de patrones. | Más eficiente que Apriori. | Recomendaciones en e-commerce |
2.4 Recomendadores
| Técnica | Datos | Descripción breve | Notas | Casos de uso típicos |
|---|---|---|---|---|
| CF basado en usuarios | Ratings/Interacciones | Vecindad de usuarios. | Arranque en frío. | Netflix (usuarios similares) |
| CF basado en ítems | Ratings/Interacciones | Similitud entre ítems. | Estable y escalable. | Amazon (ítems similares) |
| Matrix Factorization (SVD/ALS) | Matriz user×item | Factores latentes. | Regularización. | Spotify (factores) |
| Modelos híbridos | Metadatos + CF | Combina contenido + CF. | Complejos. | LinkedIn (híbridos) |
2.5 Detección de anomalías
| Técnica | Tipo de datos | Descripción breve | Notas | Casos de uso típicos |
|---|---|---|---|---|
| Isolation Forest | Tabular | Aísla outliers con árboles. | Poco tuning. | Fraude transaccional |
| One-Class SVM | Num. (esc.) | Frontera de datos normales. | Elegir ν; kernel. | Intrusos en redes |
| Elliptic Envelope | Num. | Supone gaussianidad. | Limitado si no normal. | Control de calidad |
| Autoencoders (reconstr.) | Secuencias/Imágenes | Alto error de reconstrucción. | Requiere datos normales. | Fallos en sensores |