Es bien sabido que el mantenimiento predictivo se utiliza para la detección temprana de fallos, el diagnóstico y la predicción en multitud de industrias como oil&gas, fabricación y transporte. Para ello el equipo se monitoriza continuamente (en muchos casos usando técnicas de IoT/iIoT) para medir variables como el sonido, la vibración y la temperatura para predecir problemas potenciales.
El primer paso es determinar la causa raíz de cualquier tipo de falla o error. La práctica estándar actual utiliza conjuntos de reglas complejos para monitorizar continuamente componentes específicos, pero dichos sistemas generalmente solo alertan sobre fallas observadas previamente. Además, estos conjuntos de reglas de expresiones regulares no escalan bien.
A medida que el conjunto de los datos se vuelve más voluminoso y heterogéneo, mantener estos conjuntos de reglas presenta una tarea interminable. Además dado que solo alertan sobre lo que se ha visto en el pasado, no pueden detectar nuevas causas raíz con patrones que antes eran desconocidos para los analistas.
Con el objetivo de crear un enfoque más proactivo para el mantenimiento predictivo desde NVIDIA se ha implementado una POC basada en el procesamiento del lenguaje natural (NLP) para monitorizar e interpretar los registros buscando:
- Reducir drásticamente el tiempo dedicado a analizar manualmente los registros del kernel de los sistemas NVIDIA DGX al señalar líneas importantes en la gran cantidad de registros.
- Clasificar secuencias de manera probabilística, para darle al equipo la capacidad de ajustar un umbral para decidir si una línea en el registro es una causa raíz o no.
Se puede encontrar un NOTEBOOK ejemplo completo de un flujo de trabajo de causa raíz en el repositorio de GitHub de RAPIDS CLX.
Para la implementación final más allá del POC, el equipo está utilizando NVIDIA Morpheus, un marco de IA abierto para que los desarrolladores implementen canalizaciones de inferencia específicas de ciberseguridad.
Morpheus proporciona una interfaz simple para que los desarrolladores de seguridad y los científicos de datos creen e implementen canalizaciones de un extremo a otro que abordan la ciberseguridad, la seguridad de la información y las canalizaciones generales basadas en registros.
507