Study of a visual perception system with multiple models for visual disability assistance
Estudio de un sistema de percepción visual con múltiples modelos para asistencia en discapacidad visual
Autor
Apresa Echeverría, Rubens André
Heras Gómez, Camilo Andrés
Linero Caro, Jaymed Daniel
Fecha
2025-06-03Resumen
The project presents a technological solution to assist people with visual impairments through a mobile application developed with Flutter. This application integrates advanced computer vision models (YOLOv11 and YOLO-World) to detect and recognize objects in real time. Once objects in the environment are identified using the phone's camera, the application generates detailed audio descriptions with the support of Gemini AI, allowing users to better understand their surroundings. The system is based on a hybrid architecture that combines local processing on the device with cloud services, ensuring efficiency and scalability. It has been tested and validated with real users to ensure its practical usability. The use of established datasets such as COCO and LVIS allows the models to recognize a wide variety of everyday objects, improving the richness and relevance of the information provided to users. The development process followed the agile SCRUM methodology, which allowed for iterative improvements in development, accessibility, validation, and user experience. The project demonstrates how the integration of generative artificial intelligence with robust object detection models can contribute to greater independence and mobility for people with visual impairments in diverse real-world environments. El proyecto presenta una solución tecnológica para ayudar a personas con discapacidad visual mediante una aplicación móvil desarrollada con Flutter. Esta aplicación integra modelos avanzados de visión artificial (YOLOv11 y YOLO-World) para detectar y reconocer objetos en tiempo real. Una vez identificados los objetos del entorno mediante la cámara del teléfono, la aplicación genera descripciones de audio detalladas con el apoyo de Gemini AI, lo que permite a los usuarios comprender mejor su entorno. El sistema se basa en una arquitectura híbrida que combina el procesamiento local del dispositivo con servicios en la nube, lo que garantiza eficiencia y escalabilidad. Se ha probado y validado con usuarios reales para garantizar su usabilidad práctica. El uso de conjuntos de datos consolidados como COCO y LVIS permite que los modelos reconozcan una amplia variedad de objetos cotidianos, mejorando la riqueza y la relevancia de la información proporcionada a los usuarios. El proceso de desarrollo siguió la metodología ágil SCRUM, que permitió mejoras iterativas en el desarrollo, la accesibilidad, la validación y la experiencia de usuario. El proyecto demuestra cómo la integración de la inteligencia artificial generativa con modelos robustos de detección de objetos puede contribuir a una mayor independencia y movilidad de las personas con discapacidad visual en diversos entornos del mundo real.
Colecciones a las que pertenece
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Análisis de categorías conceptuales asociadas al tipo de comercial y al efecto del material visual-verbal previo/Analysis of conceptual categories associated with type of ads and effect of the previous visual-verbal material
Marithza Sandoval Escobar; Universidad Konrad Lorenz; Omar Fernando Cortés Peña; Universidad Konrad Lorenz; Beatriz Barragán; Universidad Konrad Lorenz (Psicología desde el Caribe, 2010-09-08) -
La estética de la hemotafonomía: un estudio de los paralelos estilísticos entre una ciencia y la literatura y artes visuales. [Inglés]
Policarp Hortolà; Universitat Rovira i Virgili & Institut Català de Paleoecologia Humana i Evolució Social. (Universidad del Norte, 2009-07-21) -
Diseño de una máquina destinada a la automatización del inflado de globos y posterior detección visual de defectos para la empresa SEMPERTEX
González Gutiérrez, Stephanny; Maldonado Peñate, Carlos Arturo; Manjarrés Santiago, Ana Milena; Ramos Pacheco, William Zair (Barranquilla, Universidad del Norte, 2022, 2022-06-07)