Mientras que a los matemáticos o a los estadísticos que se dedican a esto del Machine Learning les basta con encontrar el algoritmo que mejor «represente» los datos con los que se ha entrenado, a los «cientíticos datos» que provenimos del mundo ingenieril no confiamos mucho en algo que no podamos entender. Por eso una red neuronal o un modelo de Deep Learning con miles de números (pesos), funciones de activación no lineales, etc.. de poco servirán para entender lo que se esconde de bajo por mucho que ajusten a la realidad.
En resumen, los ingenieros huimos de los modelos tipo de caja negra … aunque muchas veces no queda más remedio que utilizarlos. Ahora investigadores de la URV e ICREA (Institución Catalana de Investigación y Estudios Avanzados (ICREA)) han diseñado un algoritmo capaz de identificar automáticamente modelos matemáticos que, además de mejorar la fiabilidad de las predicciones que hacen, aportan información para comprender los datos, como lo haría un científico.
El algoritmo desarrollado en la URV procesa los datos de forma automática, rápida y fiable, como hace el sistema de aprendizaje automático, y además da como resultado un modelo interpretable, como lo haría el científico.
El algoritmo se puede aplicar para analizar e interpretar datos de cualquier ámbito en un proceso mucho más ágil y eficiente de los que existen hasta ahora. Pero el verdadero valor añadido es la información que este sistema aporta.
En este estudio, el algoritmo se ha aplicado a un problema fundamental de física de fluidos con la colaboración del grupo de investigación Experimentación, Computación y Modelización en Mecánica de Fluidos y Turbulencia del Departamento de Ingeniería Mecánica de la URV.
791
El tema de la interpretabilidad de los modelos es cada vez más el objetivo de muchos estudios resumiéndose AQUÍ algunas de las técnicas que están usándose en la actualidad.
AQUÍ más o menos lo mismo centrado en especial sobre modelos de Deep Learning.
Está claro que el autor de este comentario no es ni ingeniero ni científico sino más bien «data scientist».
Para él (y hasta tiene parte de razón) el problema de falta de confianza en los modelos caja negra es más bien por un tema de creerse que los resultados son correctos. En nuestra vida diaria somos capaces de sacar conclusiones (y diferencias por ejemplo entre perros y gatos) sin poder explicar qué «variables» son las que utilizamos en nuestro razonamiento para realizar dicha clasificación ¿no?