La paciente era una mujer de 39 años que acudió al departamento de emergencias del Centro Médico Beth Israel Deaconess en Boston. Le dolía la rodilla izquierda desde hacía varios días. El día anterior, tenía fiebre de 102 grados. Ya no está, pero todavía tiene escalofríos. Su rodilla estaba roja e hinchada.
¿Cuál fue el diagnóstico?
En un caluroso viernes reciente, la Dra. Megan Landon, residente, mostró este caso real a una sala llena de estudiantes de medicina y residentes. Se reunieron para aprender una habilidad que puede ser difícil de enseñar: cómo pensar como un médico.
“Los médicos son malos para enseñar a otros médicos cómo pensar”, dijo el Dr. Adam Rodman, internista, historiador médico y organizador de eventos en Beth Israel Deaconess.
Pero esta vez, pueden llamar a un experto para que les ayude a realizar un diagnóstico: GPT-4, la última versión del chatbot lanzado por OpenAI.
La inteligencia artificial está cambiando muchos aspectos de la práctica de la medicina, y algunos profesionales médicos están utilizando estas herramientas para ayudarse en el diagnóstico. Los médicos de Beth Israel Deaconess, un hospital docente afiliado a la Escuela de Medicina de Harvard, decidieron explorar cómo se podrían usar (y abusar) de los chatbots para capacitar a futuros médicos.
Educadores como el Dr. Rodman esperan que los estudiantes de medicina puedan recurrir a GPT-4 y otros chatbots para algo parecido a lo que los médicos llaman consulta en la acera: cuando llaman a un colega a un lado y le piden una opinión sobre un caso difícil. La idea es usar el chatbot de la misma manera que los médicos se acercan entre sí para obtener sugerencias e ideas.
Durante más de un siglo, el Doctor ha sido retratado como un detective que reúne pruebas y las usa para encontrar al culpable. Pero los médicos experimentados en realidad usan un método diferente, el reconocimiento de patrones, para ver qué está mal. En medicina, esto se denomina guion de enfermedad: signos, síntomas y resultados de pruebas recopilados por médicos para contar una historia coherente basada en condiciones similares que conocen o han visto ellos mismos.
Si un guión de enfermedad no ayuda, dijo el Dr. Rodman, los médicos recurren a otras estrategias, como identificar probabilidades para diferentes diagnósticos que podrían ser apropiados.
Los investigadores han intentado durante más de medio siglo diseñar programas informáticos para realizar diagnósticos médicos, pero nada ha funcionado realmente.
Los médicos dicen que GPT-4 es diferente. “Crearía algo notablemente similar al escenario de la enfermedad”, dijo el Dr. Rodman. De esta manera, agregó, es “fundamentalmente diferente de un motor de búsqueda”.
El Dr. Rodman y otros médicos del Beth Israel Deaconess le preguntaron al GPT-4 sobre posibles diagnósticos en casos difíciles. En un estudio publicado el mes pasado en la revista médica JAMA, se descubrió que tenían un mejor desempeño que la mayoría de los médicos en los desafíos de diagnóstico semanales publicados en el New England Journal of Medicine.
Pero han aprendido que hay un arte en el uso de software y que hay inconvenientes.
Definitivamente lo usan los estudiantes de medicina y los residentes, dijo el Dr. Christopher Smith, director del programa de residencia en medicina interna del centro médico. Pero, agregó, “si aprenden algo es una pregunta abierta”.
La preocupación es que pueden confiar en la IA para hacer un diagnóstico de la misma manera que confían en la calculadora de su teléfono para resolver un problema matemático. Esto es peligroso, dijo el Dr. Smith.
El aprendizaje implica tratar de resolver las cosas, dijo: “Así es como mantenemos las cosas. La lucha es parte del aprendizaje. Si subcontratas el aprendizaje de GPT, esa lucha se acaba”.
En la reunión, los estudiantes y residentes se dividieron en grupos y trataron de averiguar qué le pasaba al paciente con la rodilla hinchada. Luego cambiaron a GPT-4.
Los grupos probaron diferentes enfoques.
Uno usó GPT-4 para hacer una búsqueda en Internet, similar a como lo usa Google. El chatbot escupió una lista de posibles diagnósticos, incluido el trauma. Pero cuando los miembros del grupo le pidieron que explicara sus razones, el robot se sintió decepcionado y explicó su elección diciendo: “El trauma es una causa común de lesión en la rodilla”.
Otro grupo pensó en posibles hipótesis y pidió a GPT-4 que las verificara. La lista del chatbot se alineaba con la lista del grupo: infecciones, incluida la enfermedad de Lyme; artritis, incluida la gota, que es un tipo de artritis que involucra cristales en las articulaciones; y conmoción
GPT-4 agregó la artritis reumatoide a las probabilidades principales, aunque no ocupaba un lugar destacado en la lista de deseos. Más tarde, los capacitadores le dijeron al grupo que la gota era insoportable para esta paciente porque era joven y mujer. La artritis reumatoide puede excluirse debido a la inflamación de una sola articulación y por solo dos días.
Como asesor de aceras, GPT-4 pareció pasar la prueba o al menos estar de acuerdo con los estudiantes y residentes. Pero en este ejercicio, no proporcionó ideas, ningún escenario satisfactorio.
Una razón puede ser que los estudiantes y los residentes usaron el bot más como un motor de búsqueda que como una consulta en la acera.
Para usar correctamente el bot, dijeron los entrenadores, deberían comenzar diciéndole a GPT-4 algo como: “Eres un médico que ve a una mujer de 39 años con dolor en la rodilla”. Luego, tendrían que enumerar sus síntomas antes de pedir un diagnóstico y seguir con preguntas sobre el razonamiento del robot, como lo harían con un colega médico.
Los instructores dijeron que esta es una forma de aprovechar el poder de GPT-4. Pero también es importante darse cuenta de que los chatbots pueden cometer errores y “alucinar”, proporcionando respuestas que, de hecho, no tienen ninguna base. Usarlo requiere saber cuándo es incorrecto.
“No está mal usar estas herramientas”, dijo el Dr. Byron Crowe, internista del hospital. “Solo tienes que usarlo de la manera correcta”.
Proporcione una analogía de grupo.
“Los pilotos usan GPS”, dijo el Dr. Crowe. Pero agregó que las aerolíneas “tienen un nivel de confiabilidad muy alto”. El uso de chatbots en medicina es muy tentador, dijo, pero se deben aplicar los mismos altos estándares.
“Es un socio intelectual maravilloso”, dijo, “pero no reemplaza a una experiencia mental profunda”.
Al finalizar la sesión, los entrenadores revelaron la verdadera causa de la inflamación de la rodilla del paciente.
Resultó ser una posibilidad que todos los grupos habían considerado y que GPT-4 había sugerido.
Tenía la enfermedad de Lyme.
Olivia Allison contribuyó con el reportaje.