Seguro que a mis «ex-compis» biólogos de la petrolera estarán encantados de saber que sus colegas del Instituto de Tecnología de Massachusetts (MIT) han desarrollado un sistema de aprendizaje automático automatizado (AutoML) llamado BioAutoMATED que permite construir modelos de aprendizaje automático sin necesidad de experiencia en la materia.
La selección y construcción de modelos de aprendizaje automático suele ser un proceso costoso y consume mucho tiempo, especialmente para laboratorios científicos y de ingeniería. Incluso con la ayuda de expertos en aprendizaje automático, la preparación y formateo de los conjuntos de datos puede cambiar drásticamente el rendimiento del modelo y requerir mucho trabajo.
BioAutoMATED es capaz de seleccionar y construir automáticamente un modelo apropiado para un conjunto de datos dado, e incluso se encarga de la laboriosa tarea de preprocesamiento de datos, reduciendo así un proceso que podría llevar meses a solo unas pocas horas. Aunque los sistemas de AutoML se encuentran en una etapa temprana de desarrollo, con un uso actual principalmente centrado en el reconocimiento de imágenes y texto, el equipo de investigadores ha logrado adaptarlo a la biología.
«El lenguaje fundamental de la biología se basa en secuencias», explica Luis Soenksen, investigador postdoctoral del Jameel Clinic y coautor del estudio. «Secuencias biológicas como el ADN, el ARN, las proteínas y los glúcidos tienen la increíble propiedad informativa de estar intrínsecamente organizadas como un alfabeto. Muchas herramientas de AutoML se desarrollan para texto, por lo que tiene sentido extenderlo a secuencias [biológicas]».
Una de las ventajas de BioAutoMATED es que puede explorar y construir diferentes tipos de modelos de aprendizaje automático, lo que amplía el espacio de búsqueda y ofrece más opciones que cualquier herramienta de AutoML individual. Además, el sistema incluye modelos de clasificación binaria, modelos de clasificación de varias clases y modelos de regresión, lo que permite adaptarse a diferentes tipos de datos biológicos.
El código fuente de BioAutoMATED es de código abierto y está disponible públicamente aquí para que los investigadores puedan realizar experimentos iniciales para evaluar si vale la pena contratar a un experto en aprendizaje automático para construir un modelo diferente.
Este proyecto ha sido respaldado por diversas instituciones, entre ellas la Agencia de Reducción de Amenazas de Defensa, el Programa SD2 de la Agencia de Proyectos de Investigación Avanzada de Defensa, el Paul G. Allen Frontiers Group, el Wyss Institute y el Instituto Nacional de Alergias y Enfermedades Infecciosas de los Institutos Nacionales de Salud, entre otros. Con BioAutoMATED, la intersección entre la biología y el aprendizaje automático se vuelve más accesible y prometedora, acelerando la investigación y brindando nuevas oportunidades en este campo multidisciplinario.
361