País | Oro | Plata | Bronce | Total |
País | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | Puntos |
Las predicciones para el Mundial de Atletismo se realizaron siguiendo un enfoque basado en simulaciones que permiten obtener un resultado por cada uno de los eventos que se pronosticaron. Una vez realizadas las simulaciones de los distintos eventos, estas fueron analizadas y fueron reajustadas en base a criterio experto. En los eventos de relevos no se utilizó la metodologia de simulaciones y solo se usó el criterio de experto a partir de resultados individuales de quienes conforman el relevo así como las actuaciones de los relevos en otras competiciones importantes (mundiales, olimpiadas y campeonatos de relevos).
Los datos relativos a cada uno de los atletas fueron extraídos del sitio de World Athletics. De allí se obtuvo la información de las marcas o tiempos de los atletas en las competencias reportadas desde el año 2020 hasta el 2022 (hasta el 11 de julio). Se tuvieron en cuenta las competencias bajo techo para eventos en los que existe una relativa igualdad de condiciones (los eventos de saltos y la impulsión de la bala).
Posteriormente, se realizó un trabajo de preprocesamiento con el vector de resultados para cada atleta, en el cual se ponderan las marcas más recientes. Se eligió una ponderación lineal definida como [4,2,1], lo que significa que las marcas realizadas en el 2021 aparecerán cuatro veces, las del 2020 se repetirán dos veces en el vector y así sucesivamente. En determinados eventos, debido a las pocas marcas o competiciones, motivadas por la Pandemia que afecta al mundo se variaron los años tenidos en cuenta así como la ponderación. Se agregó, además, un parámetro alpha a la ponderación que altera las marcas de la siguiente manera:
De esta forma, mientras menos marcas tiene un atleta mayor será el valor resultante de cada marca (para eventos donde se busca maximizar el valor de la marca se toma alpha negativo). Consecuentemente, esto hace que los atletas con mayor cantidad de marcas tengan mejores resultados (se puede interpretar como un factor de experiencia).
Para estimar las marcas que harán los atletas en cada evento se utiliza un modelo Kernel Distribution Estimation (KDE) para estimar la función de densidad de probabilidad de las marcas o tiempos.
Posteriormente, se realizaron como mínimo 5000 simulaciones para cada uno de los eventos y se obtiene un pronóstico atendiendo a los valores que más se repiten. Es decir, para seleccionar el orden los participantes en la competencia, se calcula la moda de los lugares en los que quedó cada atleta. Es seleccionado el atleta que más se repite el primer lugar, luego el que más repite el segundo lugar sin ser el primero y así sucesivamente.
Las tablas de medallas y de puntos se computaron a partir de los pronósticos generados.
Para descargar los datos se utilizó Python con las bibliotecas Requests y Selenium. Los datos obtenidos y procesados se guardaron en formato CSV. Para generar los pronósticos se utilizaron las biblioteca SKLearn, Numpy, Pandas y Matploblib. Los pronosticos generados se guardaron en formato JSON. Este JSON fue utilizado para la visualización final. Esta se desarrolló directamente utilizando HTML5, CSS y Javascript como herramientas auxiliares se usó Bootstrap, Jquery y JqueryTablesorter.
Este proyecto resultado de una colaboración entre Postdata.club, el Grupo de Inteligencia Artificial (GIA) y el Curso optativo de Periodismo de Datos, ambos de la Facultad de Matemática y Computación de la Universidad de La Habana.
Coordinación general:
Yudivián Almeida
Pronósticos:
Yudivián Almeida
Karla Olivera
Jorge Junio Morgado
Omar Alejandro Hernández
Dafne García
Textos:
Yudivián Almeida y Manuel (Noly) Fernández
Desarrollo web y Redes sociales:
Yudivián Almeida
Corrección:
Lisandra López