Un equipo internacional de investigadores ha publicado OMol25, un conjunto abierto de datos de moléculas orgánicas sin precedentes en escala y diversidad, con el objetivo de mejorar sustancialmente el desarrollo de modelos de inteligencia artificial aplicados a la química computacional. OMol25 incluye más de 83 millones de sistemas moleculares únicos y más de 100 millones de cálculos de propiedades fisicoquímicas obtenidas mediante teoría del funcional de la densidad (DFT). Esta base de datos no solo representa un salto cuantitativo, sino también cualitativo en la manera en que se entrena a los modelos de IA, permitiendo una generalización mucho más robusta en el espacio químico.

Desde nuestra etapa profesional trabajando durante más de cinco años en química computacional, podemos afirmar que uno de los mayores obstáculos para el avance de los modelos predictivos ha sido la escasez de conjuntos de datos suficientemente amplios y diversos. OMol25 es un paso clave hacia la superación de estas limitaciones. Además, su accesibilidad pública y estructura modular lo convierten en un recurso extremadamente valioso para múltiples aplicaciones, desde el diseño de nuevos materiales hasta la predicción de propiedades farmacológicas.

Un conjunto de datos sin precedentes

OMol25 (Open Molecules 2025) es el resultado del trabajo conjunto entre el Lawrence Berkeley National Laboratory, la Universidad de Harvard y las Universidades canadienses de Toronto y Alberta. Su objetivo es poner a disposición de la comunidad científica un recurso que permita entrenar algoritmos de inteligencia artificial con una representatividad realista del espacio químico orgánico.

La base de datos incluye 83 millones de moléculas únicas, que abarcan desde estructuras simples como metano y etanol hasta compuestos complejos con heteroátomos, ciclos aromáticos y sustituyentes múltiples. Las moléculas han sido generadas mediante un procedimiento sistemático de expansión a partir de bloques estructurales básicos, utilizando un conjunto cerrado de reglas de crecimiento químico.

Lo que realmente distingue a OMol25 de bases anteriores como QM9 o PC9 es su escala y heterogeneidad. Mientras QM9 contiene unas 134.000 moléculas, OMol25 lo multiplica por más de 600 veces. Además, cada molécula ha sido optimizada geométricamente y evaluada mediante cálculos DFT con el funcional ωB97X-D y la base 6-31G*, lo que garantiza una consistencia y calidad superiores.

Detalles técnicos y estructura del dataset

El conjunto OMol25 contiene más de 100 millones de puntos de datos asociados a propiedades electrónicas y estructurales como:

  • Energía total y energía libre

  • Momento dipolar

  • Cargas atómicas

  • Energía orbital HOMO-LUMO

  • Entalpías de formación

  • Momentos de inercia

  • Constantes de acoplamiento de espín nuclear (NMR)

Los datos están almacenados en formato HDF5 y JSON, con una estructura jerárquica que permite extraer subconjuntos específicos o entrenar modelos de aprendizaje profundo directamente. También se ha proporcionado una API abierta compatible con frameworks como PyTorch y TensorFlow, lo que facilita su integración en flujos de trabajo existentes.

La cobertura del espacio químico se ha asegurado mediante muestreo estocástico controlado y evaluaciones de diversidad basadas en fingerprints moleculares y distancias Tanimoto. Esto es crucial, ya que uno de los principales retos en el entrenamiento de modelos químicos es evitar el overfitting a regiones poco representativas del espacio molecular.

Implicaciones para la inteligencia artificial aplicada a la química

En el campo de la química computacional, la capacidad de predecir propiedades moleculares sin necesidad de cálculos cuánticos intensivos ha sido una de las grandes metas. Los modelos de aprendizaje automático, como redes neuronales gráficas (GNNs), transformers químicos o kernels gaussianos, han mostrado resultados prometedores, pero su precisión y generalización estaban limitadas por la falta de datasets extensos y heterogéneos.

OMol25 cambia estas condiciones. Ahora es posible entrenar modelos con decenas de millones de ejemplos y validarlos con datos reales de muy alta calidad. Esto permite desarrollar predictores de propiedades químicas que rivalizan, y en ocasiones superan, la precisión de métodos semiempíricos y DFT de bajo nivel.

En los años que tuvimos la oportunidad de trabajar con los mayores expertos españoles en química computacional, hemos comprobado de primera mano cómo modelos que antes solo podían aplicarse a moléculas pequeñas y acotadas ahora pueden extrapolarse con confianza a sistemas nuevos. El impacto es especialmente notable en la predicción de solubilidades, actividad farmacológica y propiedades ópticas, donde los errores se han reducido en más del 30 % respecto a generaciones anteriores de modelos.

Aplicaciones prácticas: desde la farmacología hasta los materiales

El acceso abierto y gratuito a OMol25 permite que grupos de investigación, startups y departamentos de I+D industrial puedan utilizarlo sin restricciones. Las aplicaciones inmediatas van desde el diseño de nuevos medicamentos (drug discovery) hasta la optimización de polímeros, catalizadores o electrolitos para baterías.

Por ejemplo, entrenar un modelo GNN sobre OMol25 permite predecir con precisión los valores HOMO-LUMO, cruciales para materiales electrónicos, en cuestión de milisegundos, en lugar de horas de cálculo DFT. Asimismo, la predicción de momentos dipolares y polarizabilidades se vuelve más accesible, lo que resulta útil para el diseño de compuestos con alta constante dieléctrica.

También observamos que en campos como la química ambiental, OMol25 ofrece un marco riguroso para analizar la persistencia y toxicidad potencial de nuevos compuestos. De hecho, la base de datos incluye una fracción dedicada a moléculas con estructuras similares a contaminantes orgánicos persistentes, lo cual facilita el entrenamiento de modelos toxicológicos de nueva generación.

Reflexiones

Iniciativas como OMol25 representan un antes y un después en la forma en que los investigadores acceden y utilizan datos. La posibilidad de contar con millones de ejemplos etiquetados de forma coherente y homogénea cambia completamente la escala de lo que es posible modelar.

Hasta hace poco, nos veíamos obligados a usar conjuntos de datos pequeños, incompletos o inconsistentes, lo que limitaba la calidad de los modelos y obligaba a largas validaciones manuales. Hoy, gracias a bases como OMol25, el foco puede centrarse en optimizar arquitecturas de red, explorar transfer learning y combinar datos simulados con resultados experimentales.

Además, esta iniciativa favorece una mayor reproducibilidad en la ciencia química, ya que todos los datos están generados bajo condiciones estandarizadas y documentadas, lo que minimiza sesgos y errores sistemáticos. Como resultado, la comunidad puede colaborar de forma más abierta y eficiente, acelerando el descubrimiento científico.

Conclusión

OMol25 se sitúa en la intersección entre la química teórica y la inteligencia artificial, estableciendo un nuevo estándar para lo que se espera de los conjuntos de datos en este campo. Su escala, diversidad y calidad lo convierten en un pilar para el desarrollo de nuevos modelos predictivos capaces de transformar la investigación y la innovación en múltiples sectores.

Aunque aún existen desafíos, como el tratamiento de efectos relativistas, solventes o interacciones intermoleculares, la aparición de recursos como OMol25 permite avanzar hacia soluciones más completas. A medida que más instituciones adopten este modelo de datos abiertos y colaborativos, el impacto de la inteligencia artificial en la química será cada vez más profundo y estructural.

238
Suscribirse
Notificación
1 Comment
Inline Feedbacks
Ver todos los comentarios
1
0
¡Aquí puedes dejar tus comentarios!x