Inicio › Foros › Estrategia de Análisis de Datos › Dudas u orientación para poder desarrollar mi proyecto
- Este debate tiene 7 respuestas, 3 mensajes y ha sido actualizado por última vez el hace 4 años, 10 meses por Jordi.
-
AutorEntradas
-
26 enero, 2020 a las 23:46 #5446MIGUEL ANGEL GARCIA RODRIGUEZModerador
Hola!
Quiero empezar a hacer mis primeros proyectos para aplicar todo lo que estoy aprendiendo. Me lo he querido llevar a mi terreno, el deporte. Por eso, me he hecho una tabla de datos con porteros de las 5 grandes Ligas de fútbol. El objetivo que persigo es ver quién es el mejor portero de La Liga y el de las 5 grandes ligas. Porque no podemos decir que el mejor portero es aquel que encaja menos goles. Hay más factores.
Por ejemplo, nadie duda que Casillas es uno de los mejores porteros de la historia. Y en cambio solo fue Zamora una vez. Y ahora: ¿es Oblak el mejor del mundo? ¿Hay algún portero de equipo pequeño que, aunque encaje más, en proporción evita más goles?
A partir de aquí, me atasco a la hora de definir bien el objetivo y saber qué métricas usar y cómo hacerlo. Por eso pido un poco de orientación inicial.
Dejo la tabla de datos
https://docs.google.com/spreadsheets/d/1Ro1GinYSRQuhoFdq1Vzp0BU4Pm86H7KYvH_9w2Bgj5k/edit?usp=sharing
gracias!
27 enero, 2020 a las 21:12 #5456Adrián Alvarez MolinaParticipanteHola Germán, el futbol es un tema que mueve pasiones así que haces bien en «tomar prestada» esa energía para empezar a analizar los datos.
Veo que tienes muchas variables «de entrada» (variables independientes), pero no tienes ninguna variable de salida (ninguna variable que diga si el portero es bueno).Lo idoneo sería que hubiera una puntuación que indicase como de bueno es el portero (por ej: si sigues el tenis el ranking mundial de los tenistas). No sé si habrá alguna puntuación de ese estilo para los jugadores de futbol, o veces que ha sido nominado a mejor jugador algo así. En caso de que no encuentres una variable así, aunque sería más subjetivo no veo otra que califiques tú qué es un buen portero dando a todas las variables que tienes un peso o importancia (como cuando se bareman méritos: «Por cada ocasión de gol salvada +0,02», «Por cada acción defensiva fuera del área +0,01″).
En este caso lo más probable es que no todos los porteros hayan jugado el mismo tiempo, ni el mismo número de partidos (de modo que los porteros que jueguen poco tendrían menos oportunidades de hacer cosas buenas y malas).
Así que yo te recomendaria que para que la comparación fuera más equitativa las variables que dependen del número de partidos las dividieras por el número de partidos (en vez de partidos ganados hacer % de partidos ganados= partidos ganados/partidos jugados * 100).
Las de los tiros a puerta o penaltis igual, haría porcentajes para esas variables » % ocasiones salvadas = ocasiones salvadas/disparos a puerta * 100″
1º Hacer un scatter-plot entre minutos jugados v.s partidos jugados y más o menos tendrían que salirte parecidos.Espero que te ayude.
27 enero, 2020 a las 22:11 #5457MIGUEL ANGEL GARCIA RODRIGUEZModeradorGracias Adrián,
voy a darle una vuelta a eso de la variable de entrada. A mí me parece interesante la métrica avanzada de los Post-shot expected goal (en amarillo) porque te viene a decir cuántos goles debería haber encajado en función de la calidad de los tiros que le han hecho (si es por ejemplo es +4.2 es que le deberían haber metido 4.2 más de los que ha encajado y en negativo al contrario). No sé si eso vale como baremo o busco otra cosa.
En cuanto a lo de los minutos, yo ya filtré en la tabla, porque no están todos los porteros de las 5 grandes ligas, solo aquellos que han jugado al menos un tercio de los minutos respecto al total de sus respectivas ligas (en LaLiga creo que son al menos 600 minutos y en la Premier 700).
Lo del porcentaje, quizás es mejor hacerlo por cada 90 minutos (veo que se suele hacer así), que al final es el tiempo relativo a un partido.
¿Cómo lo ves?
29 enero, 2020 a las 15:56 #5532JordiSuperadministradorHola Miguel Ángel!
Yo estoy con Adrián.
La clave es buscar una variable que te permita cuantificar lo bueno qué es el portero.Que está variable sea la suma de varias características:ç
– x1 = Bueno en paradas
– x2 = Bueno en rechaces
– x3 = Bueno en penaltis
– x4 = Bueno evitando situaciones de peligro
-…Y la xtot = x1+x2+x3+x4+… o incluso xtot = a*x1 + b*x2 + c*x3 + …
Tu ejercicio podría ir en preguntar a expertos que puntuen a los porteros con su valoración xtot
Entonces tendremos todo.tendrás las variables x1, x2, x3 ,… de los datos y la xtot de los expertos
Lo cual podrás calcular un modelo que te permita darte el peso o la importancia de cada variable.Esto te dará una fórmula para decidir lo bueno qué es un portero.
Puede ser un enfoque interesante.
Jordi
29 enero, 2020 a las 17:27 #5533MIGUEL ANGEL GARCIA RODRIGUEZModeradorOk, pero hay una cosa que no entiendo o se me escapa: si yo quiero saber quién es el mejor portero en base a los datos que dispongo y hago una variable para cuantificar lo bueno que es cada portero, de qué me sirven entonces los datos? Con esa variable ya sabría quién es el mejor…
30 enero, 2020 a las 11:54 #5539JordiSuperadministradorPASO 1 – describe las características que creas que definen un buen portero
Lista las métricas y dibuja sus características de tu muestra.
Puedes hacer un gráfico tipo este: https://www.youtube.com/watch?v=hKe_jp6dqo4
Calcula el promedio las desviación de esas variables que indiquen lo bien que lo hace el portero
Incluso puedes calcular la correlación de ellasCon ello consigues entender cómo son se comportan las muestras de porteros en esas determinadas posiciones.
Entender qué métricas son las más interesantes.
EL objetivo de este primer paso es hacer ver al público unas buenas métricas para definir lo bien que lo hace el portero en diferentes aspectos.PASO 2 – Encontrar expertos que evalúen con una nota de 0 a 10 estos porteros
Esa una nota subjetiva. Pero valorada por expertos, entrenadores que saben del tema.
Esta variable xtot será la respuesta de nuestro modelo.La pondremos en función de las métricas del paso 1.
PASO 3 – creamos un modelo de datos lineal
Este modelo es una regresión sencilla que explique la xtot (objetivo de tus expertos) en función de las características.
Eso te dará un modelo de datos capaz de calcularte la xtot con nuevos porteros.Con nuevos datos de entrada del paso 1 sin saber la xtot podrás calcular esa xtot con el modelo.
¿Lo ves?El reto lo tienes en preguntar a expertos que te digan la nota de cada portero.
Y así serías el primer creador de una métrica capaz de evaluar porteros sólo con datos observados.
Incluso podemos ordenar de más importantes a menos las métricas que has definido en el paso 1.¡Me parece un proyecto brutal!
- Esta respuesta fue modificada hace 4 años, 10 meses por Jordi.
30 enero, 2020 a las 22:28 #5543MIGUEL ANGEL GARCIA RODRIGUEZModeradorOk Jordi!
pues me pongo a ello.
Si como dices puedo generar un modelo de datos capaz de calcularme esas xtot con nuevos porteros, entonces empezaré sólo por tratar de conseguir esa evaluación de expertos sólo de LaLiga, ya que se me antoja complicado obtener una valoración de todos los porteros de las 5 grandes ligas, y luego ya aplicarles ese modelo al resto.
Ya os voy contando!
- Esta respuesta fue modificada hace 4 años, 10 meses por MIGUEL ANGEL GARCIA RODRIGUEZ.
6 febrero, 2020 a las 9:34 #5838JordiSuperadministradorBRUTAAAL!
Igualmente una descripción de esas características de los porteros ya puede ser un gran proyecto de datos para ponerlo como artículo en tu blog, o dónde quieras …
ABRAZOS
-
AutorEntradas
- Debes estar registrado para responder a este debate.