Análisis y predicción de accidentes de tránsito en Barranquilla mediante técnicas de minería de datos
Using data mining techniques to analyze and predict road traffic accidents in Barranquilla
Autor
Martinez Bielostotzky, Daniel Alexander
Rueda Iglesias, Andrés Felipe
Fecha
2019-05-16Resumen
En Colombia, específicamente en el departamento del Atlántico, los datos preliminares procesados por el Observatorio Nacional de Seguridad Vial (ONSV) con base en los registros proporcionados por el Instituto Nacional de Medicina Legal y Ciencias Forenses (INMLCF) revelan que la cantidad de accidentes de tránsito han mantenido un comportamiento constante desde el 2012. Esto refleja una necesidad clara de descubrir, comprender y analizar los patrones de la frecuencia de estos accidentes en el tiempo.
La solución software tipo data mining propuesta para afrontar esta problemática de gestión, gobierno y minería de datos es la creación de una plataforma DSaaP (Data Science as a Platform). Ésta brinda un conjunto de tableros de mando con análisis y predicciones de la frecuencia de accidentes en la ciudad. Partiendo de datos abiertos públicos (sobre vehículos, víctimas y momento del accidente) se entrega la información de forma específica a cada rol de usuario asignado por un administrador. El proceso de minería de datos se desarrolló usando la metodología CRISP-DM y su salida son los tableros de mando para la plataforma software con la que los usuarios interactúan.
Los resultados del proyecto permitieron reportar satisfactoriamente los patrones históricos en el comportamiento de los accidentes. Estos tienen frecuencias mensuales, semanales y diarias e incluso tendencias según las zonas de la ciudad donde ocurrieron. También, se encontraron patrones en la cantidad de vehículos accidentados con diferencias según su tipo y servicio.
A su vez, se encontraron patrones en las víctimas de los accidentes, específicamente entre conductor vs acompañante, motociclistas vs parrilleros y vehículos vs peatones. Finalmente, para la predicción se aplicó un modelo regresivo de series de tiempo llamado Prophet. Éste tiene en cuenta los patrones encontrados para hacer la estimación y obtuvo un error de 1.2% para el mes de enero de 2019 con un MAE de 3.73 accidentes para todo 2018. In Colombia, specifically in the department of Atlántico, preliminary data processed by the Observatorio Nacional de Seguridad Vial (ONSV) based on records provided by the Instituto Nacional de Medicina Legal y Ciencias Forenses (INMLCF) reveal that the number of traffic accidents has remained constant since 2012. This reflects a clear need to discover, understand and analyze the patterns of frequency of these accidents over time.
The software solution type data mining proposed to address this problem of management, governance and data mining is the creation of a DSaaP platform (Data Science as a Platform). This provides a set of dashboards with analysis and predictions of the frequency of accidents in the city. Based on open public data (about vehicles, victims and time of the accident) the information is delivered specifically to each user role assigned by an administrator. The data mining process was developed using the CRISP-DM methodology and its output is the dashboards for the software platform with which users interact.
The results of the project allowed to satisfactorily report the historical patterns in the behavior of the accidents. These have monthly, weekly and daily frequencies and even trends according to the areas of the city where they occurred. Also, patterns were found in the number of accident vehicles with differences according to their type and service.
At the same time, patterns were found in the victims of the accidents, specifically between driver vs. companion, motorcyclists vs. grillers and vehicles vs. pedestrians. Finally, a regressive time series model called Prophet was applied for the prediction. It takes into account the patterns found to make the estimate and obtained an error of 1.2% for the month of January 2019 with an MAE of 3.73 accidents for the whole of 2018.