La inteligencia artificial (IA) en radiología ha avanzado considerablemente en los últimos años y tiene un impacto significativo en el campo. Hasta ahora, se venía utilizando para detectar anomalías, segmentar imágenes, brindar apoyo en la toma de decisiones y mejorar la productividad de los radiólogos.
La última versión de ChatGPT pasó un examen de radiología, destacando el potencial de los modelos de lenguaje grandes pero también revelando limitaciones que dificultan la confiabilidad, según nuevos estudios de investigación publicados en Radiology .
Los investigadores encontraron que ChatGPT basado en GPT-3.5 respondió correctamente el 69% de las preguntas (104 de 150), cerca del 70% de calificación aprobatoria utilizada por el Royal College en Canadá.
El modelo se desempeñó relativamente bien (84 %, 51 de 61) en las preguntas que requerían un pensamiento de orden inferior (recordar conocimientos, comprensión básica) , pero tuvo problemas (60 %, 53 de 89) con las preguntas que requerían un pensamiento de orden superior (aplicar, analizar, sintetizar).
.Más específicamente, tuvo problemas con la descripción de hallazgos de imágenes (61 %, 28 de 46), cálculo y clasificación (25 %, 2 de 8) y aplicación de conceptos (30 %, 3 de 10). Su pobre desempeño en preguntas de pensamiento de orden superior no fue sorprendente dada su falta de entrenamiento previo específico en radiología.
GPT-4 se lanzó en marzo de 2023 de forma limitada, afirmando específicamente tener capacidades de razonamiento avanzadas mejoradas en comparación con GPT-3.5.
En un estudio de seguimiento, GPT-4 respondió correctamente el 81 % (121 de 150) de las mismas preguntas, superando a GPT-3.5 y superando el umbral de aprobación del 70 %. GPT-4 se desempeñó mucho mejor que GPT-3.5 en preguntas de pensamiento de orden superior (81 %), más específicamente aquellas relacionadas con la descripción de hallazgos de imágenes (85 %) y la aplicación de conceptos (90 %).
Los hallazgos sugieren que las capacidades de razonamiento avanzado mejoradas de GPT-4 se traducen en un rendimiento mejorado en un contexto de radiología. También sugieren una mejor comprensión contextual de la terminología específica de la radiología, incluidas las descripciones de imágenes, que es fundamental para permitir futuras aplicaciones posteriores.
La peligrosa tendencia de ChatGPT a producir respuestas inexactas, denominadas alucinaciones, es menos frecuente en GPT-4, pero aún limita la usabilidad en la educación y la práctica médica en la actualidad.
Ambos estudios mostraron que ChatGPT usaba un lenguaje seguro de manera constante, incluso cuando era incorrecto. Esto es particularmente peligroso si solo se utiliza como información especialmente para los novatos que pueden no reconocer las respuestas incorrectas seguras como inexactas.
En la actualidad, ChatGPT se utiliza mejor para generar ideas, ayudar a iniciar el proceso de redacción médica y resumir datos. Si se usa para recuperar información rápidamente, siempre debe verificarse.
En cualquier caso es importante tener en cuenta que, aunque los modelos de lenguaje grandes pueden ser de gran ayuda en la radiología, no reemplazan la experiencia y el juicio clínico de los radiólogos. Estos modelos deben ser utilizados como herramientas de apoyo para mejorar la eficiencia y la precisión en la interpretación y generación de informes radiológicos.
590
El mundo de la IA va muy acelerado y, por ejemplo, ya hay un ChatGPT que hace informes radiológicos por si solo ahorrando a los médicos mucho tiempo.