Hace varios meses se empezaron a detectar que algoritmos que en muchas ocasiones es necesario que antes de introducir datos en un algoritmo de Machine Learning para su entrenamiento, es necesario revisar los posibles sesgos que haya en dichos datos.

Investigadores han detectado este problema principalmente en aquellos campos dónde no hay datos de «entrenamiento» para los algoritmos y se utilizan datos reales anonimizados. Un posible ejemplo es un algoritmo que se utilice para buscar candidatos en un campo dónde predomine, por ejemplo, la presencia de hombres. Al ser la mayoría de los trabajadores hombres, el algoritmo lo determinará como una característica necesaria aunque no lo sea. Otro ejemplo puede ser en el uso de este tipo de algoritmos en el mundo farmaceutico dónde es posible que determinadas enfermedades esten presentes en grupos minoritarios pero, al ser una parte pequeña de la muestra, se introduzca de nuevo un sesgo en los datos de entrenamiento.

La pasada semana se habló en prensa y redes sociales de un posible ejemplo de este tipo de sesgos con la aprobación automatizada de créditos en las nuevas tarjetas de Apple dónde se han reportado en varias ocasiones la concesión de líneas de crédito de menor cuantía para mujeres que para hombres pese a tener estas mejor o igual «puntuación crediticia». Pese a que el regulador esta investigando las causas, de momento se apunta a un posible sesgo en datos de aprendizaje ya que la concesión de la línea se hace de manera automatizada con el uso de un algoritmo.

Es por ello que resulta especialmente importante revisar los datos de entrenamiento de nuestros algoritmos antes de introducirlos en los algoritmos a entrenar para, de esta manera, tratar de reducir en la medida de lo posible sesgos involuntarios que impactarán de manera directa en la eficiencia de los algoritmos.

872
Suscribirse
Notificación
1 Comment
Inline Feedbacks
Ver todos los comentarios
1
0
¡Aquí puedes dejar tus comentarios!x