Sentime: Análisis de sentimientos de los Colombianos sobre productos, servicios o personas a través de sus tweets.
Sentime: Analysis of Colombians' feelings about products, services or people through their tweets
Autor
Fontalvo Pastorizo, John Edison
Rodríguez Donado, Juan Sebastián
Fecha
2020-05-30Resumen
Esta propuesta surge de la necesidad de las PYMES de obtener información acerca de la opinión de las personas para tomar sus decisiones (Casero-Ripollés, 2020) en base a los sentimientos expresados por las personas hacia algún servicio, producto o persona. Con base a esto, se propone implementar un prototipo usando una red neuronal la cual clasificará los tweets por su sentimiento expresado. La red neuronal hace uso del embedding Word2Vec para obtener 1.4 billones de palabras en español de Wikipedia, el modelo es entrenado para ajustarse a los acentos locales junto con una capa LSTM bidireccional que se enfoca en entender el contexto de cada tweet. La obtención de los tweets es posible gracias a herramientas open source que nos permiten hacer web scraping, se obtienen únicamente tweets localizados dentro de los 32 departamentos de Colombia. Uno de los grandes retos en NLP es distinguir acentos locales y el contexto de las oraciones, por esta razón recolectamos tweets publicados en Colombia durante los últimos dos meses, los 80.000 tweets obtenidos fueron categorizados con AWS Comprehend, para después ser usados como el dataset de entrenamiento. El prototipo web llamado Sentime se encuentra alojado en AWS, permite realizar búsquedas y visualizar los resultados de la misma a través de un mapa de calor y gráficas por departamento en tiempo real, además los usuarios pueden acceder a su historial y también a todas las búsquedas realizadas en la plataforma. La red construida cuenta con un porcentaje de acierto del 78% para la clasificación de tweets en sentimientos positivos, negativos y neutrales.
Casero-Ripollés, A. (2020). Influencia de los medios de comunicación en la conversación política en Twitter. Revista ICONO14 Revista Científica de Comunicación y Tecnologías Emergentes, 18(1), 33–57. https://doi.org/10.7195/ri14.v18i1.1527 This proposal arises from the need of SMEs to obtain information about people's opinions in order to make their decisions (Casero-Ripollés, 2020) based on the feelings expressed by people towards a service, product or person. Based on this, it is proposed to implement a prototype using a neural network which will classify tweets by their expressed sentiment. The neural network makes use of Word2Vec embedding to get 1.4 billion Spanish words from Wikipedia, the model is trained to fit local accents along with a bi-directional LSTM layer that focuses on understanding the context of each tweet. The obtaining of the tweets is possible thanks to open source tools that allow us to do web scraping, only tweets located within the 32 departments of Colombia are obtained. One of the big challenges in NLP is to distinguish local accents and context from sentences, for this reason we collected tweets published in Colombia during the last two months, the 80,000 tweets obtained were categorized with AWS Comprehend, to be used later as the training dataset. The web prototype called Sentime is hosted by AWS, it allows users to perform searches and visualize the results through a heat map and graphics by department in real time. In addition, users can access their history and also all the searches performed on the platform. The built network has a 78% success rate for the classification of tweets into positive, negative and neutral feelings.
Casero-Ripollés, A. (2020). Influence of the media on political conversation on Twitter. ICONO14 Scientific Journal of Communication and Emerging Technologies, 18(1), 33-57. https://doi.org/10.7195/ri14.v18i1.1527
Translated with www.DeepL.com/Translator (free version)