Os departamentos de emergência e outros ambientes clínicos em todo o mundo estão agora um passo mais perto de soarem como o cockpit do Milênio Falcão– com médicos humanos solicitando conselhos, brigando e, não raramente, confiando na orientação de seus obstinados colegas de IA.
Pesquisadores do Beth Israel Deaconess Medical Center de Harvard e Boston testaram com sucesso um modelo avançado de IA de grande linguagem (LLM) contra dois médicos assistentes (humanos) em seu desempenho no diagnóstico de pacientes que chegam ao pronto-socorro na fase de triagem.
O LLM, o primeiro modelo de “raciocínio” o1-preview da OpenAI, fez a decisão correta em 67,1% dos 76 casos reais do departamento de emergência apresentados a ele, com o que os pesquisadores chamaram de precisão diagnóstica “exata ou muito próxima” no novo estudarpublicado hoje na revista Science. Dois médicos especialistas vindos de instituições médicas universitárias de elite, no entanto, obtiveram apenas 55,3% e 50,0% de precisão, respectivamente, com revisores médicos cegos incapazes de diferenciar esses diagnósticos O1 e feitos por humanos.
O novo estudo também comparou o1 e os LLMs anteriores sem raciocínio da OpenAI, como o ChatGPT-4, às linhas de base de testes anteriores dos médicos, diagnosticando 143 casos complexos publicados como vinhetas clínicas no The New England Journal of Medicine.
“O1-preview incluiu o diagnóstico correto em seu diferencial em 78,3% desses casos”, de acordo com um dos principais autores do estudo, o doutorando Thomas Buckley do Departamento de Informática Biomédica da Harvard Medical School, que falou em uma coletiva de imprensa na terça-feira.
“E ao expandir para um diagnóstico diferencial que teria sido útil”, continuou Buckley, “descobrimos que a pré-visualização o1 sugeriu um diagnóstico útil em 97,9% dos casos”. Os resultados, observou ele, não apenas superaram o ChatGPT-4, mas também ultrapassaram enormemente a linha de base de um médico humano. publicado na Nature, onde médicos com liberdade de consulta a mecanismos de busca e recursos médicos padrão tiveram acerto de 44,5%. (Embora este estudo tenha incluído um conjunto maior e talvez mais espinhoso de 302 vinhetas clínicas.)
Eu, Robô, MD
“Não creio que as nossas descobertas signifiquem que a IA substitua os médicos”, o coautor do estudo Arjun Manrai, que ensina informática biomédica em Harvard, fez questão de enfatizar na coletiva de imprensa, “apesar do que algumas empresas provavelmente dirão”.
Manrai, no entanto, descreveu os resultados da equipa como evidência de uma “mudança realmente profunda na tecnologia que irá remodelar a medicina”, uma mudança que exigiria testes rigorosos para verificar a sua utilidade na melhoria dos resultados dos pacientes.
Dois pesquisadores médicos independentes, que comentou sobre o novo estudo em um artigo publicado simultaneamente na Science, ecoou essa visão. “A proposta predominante para a IA nos cuidados de saúde não é a substituição, mas a colaboração”, observaram, “com os médicos a fornecer supervisão, julgamento contextual e responsabilização”.
O coautor do estudo, Adam Rodman, médico de medicina interna em Beth Israel, comparou o possível status legal dos diagnósticos de IA ao paradigma atual com suporte à decisão clínica (CDS), ferramentas digitais já existentes que os médicos usam, mantendo a culpa pessoal por essas escolhas.
“Eu direi a você, como médico praticante, que isso seria uma limitação para a adoção generalizada de tudo isso, se o sistema regulatório fosse ‘Apenas confie em mim’”, disse Rodman no briefing. “Eu teria que ver evidências extraordinariamente fortes, como um ensaio clínico randomizado, onde faria isso com meus pacientes.”
Brincando de médico
Modelos de raciocínio, como o1-preview, diferem dos chatbots de IA com os quais você está acostumado, pois esses LLMs foram construídos para resolver problemas em etapas estruturadas, refletindo um pensamento mais dedutivo, antes de entregar respostas a um prompt. O sistema ainda tem suas limitações, que, segundo os pesquisadores, incluem dificuldade real em diagnosticar casos médicos que envolvam entrada multimodal, ou seja, imagens e evidências de áudio que ajudariam facilmente um médico humano a diagnosticar o caso de um paciente.
“Eles apresentam desempenho inferior na maioria dos benchmarks de imagens médicas”, disse Buckley. “Penso que uma área de investigação realmente activa durante a próxima década é como podemos melhorar as capacidades de integração multimodal destes modelos.”
Yujin Potter – um cientista pesquisador de IA da Universidade da Califórnia, Berkeley, que revisou o novo estudo para o Gizmodo – observou que o artigo final da equipe não abordava questões mais preocupantes que agora são conhecidas por atormentar a IA. Potter, que não está envolvido na nova pesquisa, co-publicou um estudo em março detalhamento como as equipes de IA podem desenvolver-se espontaneamente e agir de acordo com seus próprios objetivos quando encarregadas de trabalhar em coordenação, enganando ativamente seus usuários humanos e exfiltrando arquivos para escondê-los em diferentes servidores.
“Este artigo é informativo. É bom. Mas também significa que também precisamos entender melhor a segurança da IA”, disse Potter ao Gizmodo. “As pessoas devem ter em mente que a IA também pode ter alucinações e fornecer-lhes informações erradas – e até mesmo uma IA maliciosa ou desalinhada pode manipulá-las.”
No briefing de terça-feira, Buckley reconheceu que ele e os seus colegas “não mediram formalmente a taxa de alucinação destes modelos”.
“Sabemos que modelos como o1 alucinam”, acrescentou Buckley, “mas na maioria significativa dos casos, estamos a descobrir que o modelo está a sugerir algo pelo menos útil e, depois, numa enorme quantidade de casos, está a sugerir o diagnóstico exato no caso original”.
Manrai, co-autor de Buckley, acrescentou: “Meu mantra ainda é ‘confiar, mas verificar’”.













