Diseño de modelo para predicción de precio y avalúo de inmuebles en la ciudad de Barranquilla
Model design for price prediction and real estate appraisal in the city of Barranquilla
Autor
Álvarez, Ricardo
López, Alejandro
Piñeres, Augusto
Selman, Isabella
Fecha
2022-12-01Resumen
TruData is a company that provides a data analytics and business intelligence service to various companies in diverse industries in Colombia. They acquired a new costumer whose business is buying and selling real estate properties at a fair price in a short period of time. The company was given the task of analyzing and interpreting the market behavior and tendencies to be able to penetrate its walls by providing satisfaction to its clients, both real estate sellers and buyers.
The main objective of this project is to apply analytics methods to a database provided by TruData with the purpose of designing a robust model that allows the prediction of a real estate market price with a minimal error indicator. The methodology applied was a six-phase CRISP DM to correctly analyze the market context and the data supplied with the goal of correctly modeling the data entered. This process presented many challenges as it required an exhaustive investigation about the types of data analytics models to define which were the ones that fit the data best, considering the investigation done about successful cases of data modeling in other businesses and industries. Based on the results of this process, the models chosen to analyze the data were: GLM BOOST, Random Forest, Regresión Lineal Múltiple, XGBOOST y RIDGE Regression.
After obtaining the results thrown by each of the chosen modules, a comparison of their performance was done, considering their RSME and MAPE. RMSE is interpreted as the deviation of the result obtained and it’s presented in the same unit as the response variable (COP). MAPE represents the average of the absolute error in percentage form. Both indicate a better result as they get smaller in quantity. The model with the best result was the one developed with Random Forest methodology, having a approximate RMSE of 84.000.000 COP. This model will allow the prediction of a property value with the manual entry of each property's independent variables. La empresa TruData se encarga de prestar el servicio de analítica de datos e inteligencia de negocios para distintas empresas de Colombia. Recientemente, adquirió un cliente nuevo que se dedica a la compra y venta rápida de propiedades inmobiliarias del país, y desean empezar operaciones en Barranquilla. A la empresa se le encargó la tarea de analizar las tendencias y el comportamiento del mercado actual en la ciudad para lograr penetrarlo brindando satisfacción a sus clientes. El objetivo de este proyecto es aplicar métodos de analítica a una base de datos suministrada por TruData con el fin de diseñar un modelo que permita predecir el valor de un inmueble con un indicador de error mínimo. Para lograr esto, se decide optar por utilizar CRISP DM, una metodología que consiste en seguir una serie de pasos para analizar correctamente una base de datos. Este proceso implicó muchos retos dado que se llevó a cabo una investigación exhaustiva sobre los tipos de modelos de análisis de datos con el fin de definir cuáles serían los mejores para comparar, teniendo en cuenta la investigación realizada sobre casos de éxito de modelación de datos. Con base en los resultados de este proceso se optó por analizar los datos mediante los modelos: GLM BOOST, Random Forest, Regresión Lineal Múltiple, XGBOOST y RIDGE Regression. Al obtener los resultados de cada uno de los modelos, se realizó una comparativa de su rendimiento según su RMSE y MAPE. El RMSE se interpreta como la desviación de los datos y se arroja en la misma unidad de la variable respuesta (COP). El MAPE interpreta la media del error absoluto en porcentaje y, al igual que el RMSE, indica un mejor resultado cuando es más bajo. El modelo con mejor resultado fue el desarrollado mediante la metodología Random Forest, con un RMSE aproximado de 84.000.000 COP. Este modelo permitirá predecir un precio de venta de un inmueble con el ingreso manual de las variables independientes de la respectiva propiedad.