Diseño de un modelo de machine learning para predicción de rendimiento académico a partir de la resiliencia
Design of a machine learning model for predicting academic performance based on resilience
Autor
Granadillo Díaz, Carlos Daniel
Llinás Marimón, Brian Jesús
López Ramos, Simón Eduardo
Fecha
2022-05-30Resumen
Para prevenir la alta repitencia en materias críticas, las instituciones educativas suelen desarrollar estrategias para apoyar a sus educandos, sin embargo, estas históricamente se desarrollan desde una perspectiva reactiva (no predictiva), por lo que no suelen dar los resultados esperados. De igual forma, dichas instituciones han pretendido identificar a la población que necesita su apoyo a través de metodologías que implican el análisis de información netamente académica, dejando de lado factores de la personalidad, como la resiliencia del estudiante. Para mejorar entonces la forma en que las universidades identifican la población que tendrá un bajo rendimiento se propone un modelo de aprendizaje automático (Machine Learning) de rendimiento académico teniendo en consideración como variable predictora la resiliencia. El diseño del modelo consta de dos grandes etapas: el computo cuantitativo de la resiliencia, y la estimación del modelo predictivo. Para la primera, se estimó una evaluación cuantitativa de la resiliencia haciendo uso de un algoritmo de reglas de decisión, y para la etapa de clasificación se diseñaron tres modelos: “Decision Tree”, “Random Forest”, y “XGBoostrap”. A todos se les evaluaron unas métricas de desempeño, en este caso el Accuracy y el AUC, para poder comparar la capacidad predictiva de las alternativas, y finalmente seleccionar el mejor modelo. Se encontró que el algoritmo de “eXtreme Gradient Boosted trees” (XGBoost) es confiable y con una robusta capacidad de predicción. Por último, los resultados obtenidos muestran que la resiliencia aporta en la predicción de rendimiento académico, sin embargo, existen variables con mayor poder explicativo, como el tipo de metodología de evaluación que se utilice en el semestre en el que se dará la asignatura. Educational institutions usually develop strategies to support their students to prevent high repetition rates in critical subjects; however, these strategies have historically been developed from a reactive (not predictive) perspective. Therefore, they do not usually retrieve the expected results. Furthermore, these institutions have tried to identify the population that needs their support through methodologies that involve the analysis of just academic information, leaving aside personality factors, such as student resilience. To improve how universities identify the population that will have a low performance, a Machine Learning model of academic performance is proposed, taking into consideration resilience as a predictor variable. The design of the model consists of two main stages: the quantitative computation of resilience, and the estimation of the predictive model. For the first, a quantitative assessment of resilience was estimated using a decision rule algorithm, and for the classification stage, three models were designed: "Decision Tree", "Random Forest", and "XGBoostrap". All of them were evaluated on performance metrics, in this case, the accuracy and the AUC, to compare the predictive capacity of the alternatives, and finally select the best model. The "eXtreme Gradient Boosted Trees" (XGBoost) algorithm was found to be reliable and with a robust predictive capability. Finally, the results obtained show that resilience contributes to the prediction of academic performance; however, there are variables with greater explanatory power, such as the type of evaluation methodology used in the semester in which the subject will be given.