Este es el camino R para poder empezar a trabajar tu proyecto. El objetivo de esta parte es que sepas generar un informe automatizado con RMarkdown o Jupyter Notebook.
EL ENTREGABLE DE ESTA SECCIÓN LO TIENES EXPLICADO EN EL ÚTLIMO VÍDEO.
¡IMPORTANTE! Si quieres hacer lo mínimo y lo más rápido posible sigue estos pasos
- paso1 - descarga los códigos R bases científico de datos
- paso2- instala Jupyter y R en Jupyter
- paso3-mira el último vídeo sobre el entregable y adapta ese código a tus datos.
¡Tu mundo es azul, estadístico y científico! A diferencia de Python que es amarillo, inteligencia artificial e ingeniero.
Lo que vas a aprender en el PATH R del bloque II son las bases del científico de datos:
- >> Preparar la máquina R, RMarkdown y Jupyter.
- >> Las bases de programación en R: las bases del código, la lectura de datos y manipulación de dataframes.
- >> Tipos de variables y estructuras de data frames
- >> Exploración previa con descripciones univariadas
- >> Exploración previa con descripciones multivariadas
- >> Test estadísticos y modelos estadísticos claves para trabajar
Con ello ya podrás leer los datos de tu proyecto, empezar a describir tu tabla de datos y calcular tu primero modelo estadístico.
¡A por ello valiente!
Aquí tienes TODOS los códigos de R de Analiza tus Datos. Durante Analiza tus Datos, que también tienes acceso, explicamos todos los códigos paso a paso en la zona Tech Zen. Si has hecho Analiza tus Datos ya entenderás su funcionamiento y si no la has hecho no te preocupes, son tus piezas de lego que utilizarás muy a menudo 🙂
Descarga los códigos.
Para seguir los vídeos y replicar los ejemplos descarga los códigos de esta parte de las bases del científico de datos. ¡Esenciales para empezar!
El primer paso es instalar R, RStudio y conocer las dos posibilidades de crear informes de manera ordenada con RMarkdown o Jupyter.
¡Vamos a ello!
¿CÓMO USAR R CON LA ÚLTIMA VERSIÓN EN JUPYTER PASO A PASO?
PASOS DE INSTALACIÓN PARA USAR LA VERSIÓN DE R QUE TENGAS INSTALADA EN TU PC EN JUPYTER
1- Instalar una nueva versión de R Cran
https://cran.r-project.org/
2- Instalar una nueva versión de RStudio
https://www.rstudio.com/products/rstudio/download/
3- Abrir el código entregable 4 e instalar todas las librerías para que corra el código
Enlace código entregable 4
*** Si tienes problemas con RJAVA en alguno de los paquetes es porque no tienes instala JAVA en tu PC o no tienes la versión correcta de JAVA compatible con tu versión de R. Importante hacer esto:
https://www.r-statistics.com/2012/08/how-to-load-the-rjava-package-after-the-error-java_home-cannot-be-determined-from-the-registry/
*** Si tienes problemas con RLANG puedes ser porque el paquete RLANG no está instalado o hay que actualizarlo.
https://community.rstudio.com/t/rlang-error-on-rstudio-2020/79768
Una vez te funcione el código Entregable 4 en RStudio lo llevaremos a Jupyter siguiendo estos pasos:
4- Instala ANACONDA
https://www.anaconda.com/products/individual
5- Instalar el IRKernel siguiendo estos pasos WINDOWS. Ya podrás usar todas las librerías de R en tu jupyter:
https://stackoverflow.com/questions/51647561/using-a-new-windows-version-of-r-in-jupyter-notebooks
6- Instala NBextensions para poder usar el índice en Jupyter:
Abre el anaconda prompt y copia y pega este comando -->
conda install -c conda-forge jupyter_contrib_nbextensions
Enlaces citados en el vídeo:
Descarga los códigos de ejemplo y trata de abrirlos con RStudio o Jupyter:
- Codigo RMarkdown de ejemplo y ábrelo con RStudio.
Codigo Jupyter de ejemplo y ábrelo con Jupyter.
TO DO: Instala R, RStudio, Anaconda, Jupyter y R en Jupyter. Prueba que funcionen los códigos de RMarkdown y Jupyter.
En este vídeo - sesión vas a aprender las bases del código R, cómo leer datos de forma sencilla y cómo manipular los data frames que son las estructuras de matrices de datos usadas por R.
TO DO: Lee tus datos y visualiza los tipos de variables, valores perdidos y el head de tu base de datos.
En este vídeo vas a ver los tipos de variables en R y cómo describir las variables de forma univariada y multivariada.
Todas estas rutinas son esenciales para crear el entregable de este bloque.
TO DO: describe tu variable respuesta, describe tus variables de entrada por separado y finalmente, describe las variables de entrada vs la respuesta. Visualiza las relaciones entre variables cuantitativas de entrada (matrixplot).
El objetivo de este vídeo es que entiendas cómo comparar y relacionar variables de forma estadística. Es una parte importante en la selección de las variables más importantes.
TO DO: calcula las relaciones de las variables con la respuesta y haz un ranking. Usa la mutual information para hacer el ranking de todas las variables y añade la ANOVA o Chi Cuadrado según convenga.
Lo último de las bases del científico de datos es calcular un primer modelo estadístico para explicar la respuesta en función de las entradas con significación estadístico o MI no nula:
TO DO: -OPCIONAL – primer modelo entradas significativas vs la respuesta
Este es el VÍDEO clave del entregable de este bloque. Puede seguir los pasos pasito a pasito con tus propios datos y encontrar miles de patrones de tus datos.
Es maravilloso como sistematizar los análisis.
Mira el vídeo y replica todo esto a tus datos. Te saldrán dudas. Pregunta en el grupo de soporte y te ayudaremos entre todos.
El código lo tienes donde están todos los códigos del bloque II.
¡A por ello!
Si tu variable respuesta es cuantitativa también tienes el paso a paso para y encontrar patrones importantes de tus datos.
Si es así sigue los pasos marcados en este vídeo.