Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
Implementation of a machine learning model for the early diagnosis of type 2 diabetes
Autor
Marín Ortega, Luis Fernando
Parra Faria, Luisangel Alexander
Fecha
2025-05-30Resumen
El presente trabajo aborda la problemática del diagnóstico tardío de la diabetes tipo 2, una enfermedad crónica con alta prevalencia mundial. El objetivo fue diseñar e implementar un modelo predictivo de Machine Learning que, utilizando datos clínicos no invasivos y fácilmente obtenibles del BRFSS 2023, permita identificar individuos en riesgo de diabetes de forma temprana. Se realizó una rigurosa limpieza y selección de variables relevantes mediante análisis estadísticos (correlación de Pearson, chi-cuadrado, ANOVA e información mutua), priorizando aquellas con mayor impacto clínico. Se enfrentó el fuerte desequilibrio de clases mediante técnicas como SMOTE y NearMiss, logrando mejorar la sensibilidad de los modelos. La herramienta PyCaret facilitó el procesamiento, comparación y optimización automática de diferentes algoritmos. Los mejores resultados se obtuvieron con el modelo XGBoost, alcanzando altos valores de precisión y sensibilidad tras el balanceo de datos. El modelo final se integró en un prototipo funcional listo para ser desplegado vía API, demostrando así su potencial como herramienta accesible, eficiente y reproducible para apoyar el diagnóstico temprano de la diabetes tipo 2 en distintos contextos clínicos y comunitarios. This project addresses the challenge of late diagnosis of type 2 diabetes, a chronic disease with high global prevalence. The main objective was to design and implement a Machine Learning predictive model using non-invasive, easily obtainable clinical data from BRFSS 2023 to enable early identification of individuals at risk for diabetes. A rigorous data cleaning and variable selection process was conducted through statistical analyses (Pearson correlation, chi-square, ANOVA, and mutual information), prioritizing features with the greatest clinical relevance. Class imbalance was managed with techniques such as SMOTE and NearMiss, significantly improving model sensitivity. The PyCaret tool streamlined preprocessing, comparison, and automatic optimization of various algorithms. The best results were achieved with the model XGBoost, reaching high accuracy and sensitivity after balancing the dataset. The final model was integrated into a functional prototype ready for API deployment, demonstrating its potential as an accessible, efficient, and reproducible tool to support early diagnosis of type 2 diabetes in diverse clinical and community settings.
