'Doctor ChatGPT', la inteligencia artificial aprueba los exámenes para ser médico en Estados Unidos

  • Un equipo de investigadores médicos ha examinado a ChatGPT en el (USMLE), el programa de exámenes para convertirse en médico en Estados Unidos

  • La inteligencia artificial alcanzó o se acercó al umbral de aprobado en los tres exámenes sin ser entrenada con ningún tipo de información médica adicional

  • Los autores del estudio creen que a medida que la IA adquiera mayor competencia transformará la medicina clínica en todos los sectores sanitarios

La inteligencia artificial ChatGPT de la empresa Open AI se ha convertido en todo un fenómeno. Desde su lanzamiento a finales del año pasado millones de personas están interactuando con ella con una mezcla de asombro y temor ante las increíbles capacidades que está logrando exhibir. Y aunque es cierto que la inteligencia artificial no siempre da con las respuestas correctas, también lo es que su índice de acierto es muy alto en casi todos los temas sobre los que se le pregunta.

Con esto en mente, un equipo de investigadores médicos ha puesto a prueba a ChatGPT en el United States Medical Licensing Exam (USMLE), un programa de pruebas estandarizadas en tres fases que cubre todos los temas del fondo de conocimientos de los médicos, desde las ciencias básicas hasta el razonamiento clínico, la gestión médica y la bioética.

La primera prueba de este examen la suelen realizar estudiantes de medicina que han completado dos años de aprendizaje. Se suelen invertir de 300 a 400 horas de estudio para pasarlo. La segunda prueba está destinada estudiantes de cuarto año que además hayan completado entre 1,5 y 2 años de rotaciones clínicas y la tercera parte está destinada a médicos que generalmente han completado al menos entre seis meses y un año de formación médica de postgrado.

Para examinar a la inteligencia artificial se obtuvieron 376 preguntas de examen disponibles públicamente de la versión del examen de muestra de junio de 2022 en el sitio web oficial del USMLE. Se realizó una comprobación aleatoria para garantizar que ninguna de las respuestas, explicaciones o contenido relacionado estuviera indexado en Google antes del 1 de enero de 2022, que representa la última fecha accesible para el conjunto de datos de entrenamiento ChatGPT. Se filtraron todas las preguntas de prueba de muestra y se eliminaron las preguntas que contenían activos visuales como imágenes clínicas, fotografías médicas y gráficos. Tras el filtrado, 305 ítems USMLE pasaron a codificación.

En el preprint publicado por los investigadores - que también incluye a ChatGPT entre los firmantes del artículo científico - y que aún no ha sido revisado por pares, ChatGPT, tal como está, sin ser entrenada con ningún tipo de información médica específica o adicional, alcanzó o se acercó al umbral de aprobado en los tres exámenes. Además, la inteligencia artificial demostró un alto nivel de concordancia y perspicacia en sus explicaciones.

Dado que el umbral de aprobados del USMLE, aunque varía según el año, es de aproximadamente el 60%. Según los investigadores, ChatGPT se encuentra cómodamente dentro del rango de aprobados, algo que los autores del estudio consideran un resultado sorprendente e impresionante. Más aún si se tiene en cuenta que no se le ha proporcionado a la IA ninguna instrucción ni entrenamiento médico específico, y más aún cuando, comparada con una inteligencia Artificial que sí está especialmente entrenada en medicina, como lo es PubMedGPT, el modelo de lenguaje de Open IA obtuvo mejores notas, por decirlo de algún modo, sin estudiar.

La explicación para esto que apuntan los investigadores es que una IA como ChatGPT, que está enfocada a un conocimiento más general, puede tener ventaja ante una específica porque también está expuesta a contenidos clínicos más amplios, como cartillas de enfermedades dirigidas a los pacientes y prospectos de medicamentos dirigidos a los proveedores, que son más definitivos y congruentes.

Sin embargo, y curiosamente, la precisión de ChatGPT tendió a ser menor para el primer examen que en los demás, igual que entre los estudiantes de medicina, que consideran a la primera de las pruebas como la más difícil de todas. Así, según el artículo científico: "La capacidad de la IA queda supeditada a la capacidad humana. El rendimiento de ChatGPT en el paso uno es peor precisamente porque los usuarios humanos perciben su temática (por ejemplo, la fisiopatología) como más difícil u opaca.

ChatGPT puede ayudar al alumno humano

Entre las conclusiones del estudio se encuentra que ChatGPT produjo al menos una una información significativa en el 88,9% de todas las respuestas, por lo que, según los investigadores, estos resultados sugieren que los grandes modelos lingüísticos pueden tener el potencial de ayudar en la educación médica y, potencialmente, en la toma de decisiones clínicas.

Los datos indican, además, que un alumno humano objetivo (por ejemplo, un estudiante de medicina de segundo año que se prepara para el Paso 1), si responde incorrectamente, es probable que obtenga información nueva o correctiva del resultado de la IA ChatGPT. Por el contrario, es menos probable que un alumno humano, si responde correctamente, obtenga información adicional.

Los autores del estudio sostienen que las respuestas generadas por la IA para los exámenes ofrecieron una visión significativa, modelando un proceso de razonamiento deductivo valioso para los alumnos humanos. Así, aproximadamente el 90% de las respuestas contenían al menos una idea significativa. Por lo tanto, ChatGPT posee la capacidad parcial de enseñar medicina sacando a la luz conceptos novedosos y no evidentes que pueden no estar en la esfera de conocimiento de los alumnos.

Esta ganancia cualitativa proporciona una base para futuros estudios en el mundo real sobre la eficacia de la IA generativa para aumentar el proceso de educación médica humana.

Una investigación con limitaciones

Los investigadores, reconocen, sin embargo, que su estudio tiene varias limitaciones importantes. Sobre todo en lo relativo al tamaño relativamente pequeño de los datos de entrada que restringió la profundidad y el alcance de los análisis. En cualquier caso, sostienen que a medida que la IA adquiera mayor competencia, pronto se convertirá en omnipresente y transformará la medicina clínica en todos los sectores sanitarios.

Un ejemplo que se menciona en la investigación y que ha nacido inspirado en los resultados de de ChatGPT en el USMLE, es el de los médicos de AnsibleHealth, una clínica virtual de enfermedades pulmonares crónicas que ha empezado a experimentar con ChatGPT como parte de sus flujos de trabajo. Ya la usan para tareas tediosas como la redacción de facturas pero también para simplificar informes radiológicos, para generar explicaciones más entendibles para los pacientes libres de jerga médica, e incluso como un asistente a la hora de diagnosticar lanzándole ideas y conversando con ella para que devuelva sugerencias que ayuden a los médicos cuando se enfrentan a casos nebulosos y difíciles de diagnosticar.

Los médicos de esta clínica aseguran que la implementación de la IA en su trabajo les ha ahorrado, de media, un tercio del tiempo que antes invertían en documentación y en tareas indirectas de atención al paciente. En definitiva, y según los investigadores, los resultado obtenidos en esta prueba son un señal temprana pero importante de que los modelos de lenguaje como ChatGPT están alcanzando un nivel de madurez que pronto repercutirá en la atención clínica en general y en su capacidad para ofrecer una asistencia sanitaria verdaderamente individualizada, compasiva y escalable.