Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
Text content analysis based on natural language processing with BERT
Autor
González, Jairo
Angulo, Jesús
Andrés, Meza
Fecha
2022-05-04Resumen
Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiabilidad en el tiempo y la disminución de la mano de obra cualificada. Lo hacemos para automatizar un proceso que suele requerir cantidades considerables de tiempo y recursos, como humanos capacitados y largos plazos de entrega. Exploramos el uso de diferentes técnicas como Random Forest y K-Nearest Neighbor, también probamos diferentes métodos de bolsa de palabras para codificar el texto. También evaluamos un prototipo de la solución propuesta con Representaciones de Codificación Bidireccional de Transformadores (BERT) bajo un conjunto de datos para la detección de noticias falsas debido a las limitaciones de alcance, sin embargo, es aplicable a otro corpus y otro contexto de texto. Finalmente, con los servicios de AWS implementaremos un sistema para la creación de una API que pueda ser utilizada por el usuario común e implementada en sus sistemas de clasificación. This article focuses on trying to alleviate problems related to content analysis. We will discuss the use of different models for classification in Machine learning. We take this approach to solve some problems related to qualitative analysis, such as reliability over time and the decline of skilled labor. We do this to automate a process that usually requires considerable amounts of time and resources, such as trained humans and long lead times. We explored the use of different techniques like Random Forest and K-Nearest Neighbor, we also tried different bag of words methods to encode the text. We also evaluated a prototype of the proposed solution with Bidirectional Encoding Representations of Transformers (BERT) under a dataset for detection of fake news due to scope limitations, However, it is applicable to another corpus and other text context. Finally, with AWS services we will implement a system for the creation of an API that can be used by the common user and implemented in their classification systems.