Entrenamiento de modelos de clasificación con aprendizaje federado preservando la privacidad de los datos
Autor
Angulo Madrid, Eduardo David
Fecha
2022Resumen
En la actualidad, con el auge de las redes sociales y el establecimiento de las leyes de protección de datos, las empresas realizan entrenamientos de modelos de Machine Learning utilizando datos generados de manera local por sus usuarios y/o clientes en diversos tipos de dispositivos, estos datos pueden incluir información sensible, como la información familiar, los historiales médicos, los hábitos personales o registros financieros que, en caso de ser filtrada, pueden generar problemas. Por esta razón, el objetivo de esta tesis, está basado en proponer un protocolo para realizar el entrenamiento de redes neuronales MLP mediante un esquema de aprendizaje federado, utilizando datos distribuidos entre varios clientes y donde se mantenga la privacidad de los mismos. La privacidad se mantendrá por medio de un método de agregación segura que utiliza la criptografía homomórfica. La verificación de dicho protocolo se realizará por medio de varias simulaciones, donde se utilizará un conjunto de datos de un problema de clasificación multiclase, distintas arquitecturas de redes neuronales MLP y distintos números de clientes participantes en el protocolo para entrenar los modelos de manera local y mediante el protocolo propuesto. Los resultados de las distintas métricas obtenidas utilizando información desconocida en los entrenamientos local y federado en todos los clientes, son presentados y se realiza un análisis sobre los mismos. Adicionalmente, se realiza un análisis sobre los tiempos de ejecución del protocolo y la privacidad de los datos bajo un conjunto de supuestos definidos. También se identifica el valor agregado del protocolo propuesto en comparación con los trabajos anteriormente realizados en la misma área de conocimiento.