Diseño e implementación de una arquitectura para un motor de búsqueda web de publicaciones científicas almacenadas en CvLAC.
Design and implementation of an architecture for a web search engine of scientific publications stored in CvLAC
Autor
Salas Taborda, Daniel Fernando
Fecha
2017-11-29Resumen
ScienTI es una plataforma creada por Colciencias donde se almacena y consulta la información de toda la producción académica de instituciones, investigadores y grupos de investigación registrados en Colciencias. Sin embargo, dicha plataforma presenta errores de disponibilidad y usabilidad. Por ejemplo, si se desea buscar un investigador en específico es necesario saber el grupo de investigación al que pertenece, porque los resultados de la búsqueda son grupos en los cuales algunos integrantes concuerdan con el nombre buscado. Otro problema que aqueja el normal funcionamiento de la plataforma es la caída constante de sus servidores que impide acceder a la información deseada. Teniendo en cuenta esta problemática este proyecto tiene como objetivo diseñar una arquitectura para un motor de búsqueda web que facilite la consulta de publicaciones científicas registradas en ScienTI. Para obtener la informacipon de ScienTI se utilizó un algoritmo WebScrapper y WebCrawler que analizara la página de ScienTI y envíe la información solicitada a la base de datos previamente diseñada. ScienTI is a platform developed by Colciencias. This platform has information about the entire academic production of institutions, researchers and research groups registered in Colciencias. However, this platform has availability and usability errors. For example, if you want to find a specific researcher it is necessary to know the research group him/her belongs to, because the results of the search are groups in which some members match with the name sought. Another problem that affects the normal functioning of the platform is the constant fall of its servers that prevents access to the desired information. Keeping in mind those problems, this project is created in order to design an architecture for a web search engine that facilitates searchs of scientific publications registered in ScienTI. In order to get the information for ScienTI website, we design a WebCrawler and WebScrapper algorithm for analize and get the information stored in the website. The next step is send that information to the database designed.