Você já pensou em como a inteligência artificial se compara a um médico humano em um ambiente de diagnóstico de emergência? Uma nova pesquisa publicada quinta-feira pode fazer você pensar sobre esta questão.
O estudo, publicado em a revista Ciênciadescobriram que um grande modelo de linguagem de última geração superou os médicos humanos em uma série de tarefas clínicas comuns. Usando dados reais do departamento de emergência e centenas de comparações entre médicos, o modelo igualou ou até superou o desempenho do médico humano nas escolhas de diagnóstico, na triagem de emergência e na determinação dos próximos passos no gerenciamento.
Os autores do estudo disseram que esses resultados não significam que os modelos de IA estejam prontos para substituir os médicos humanos. Em vez disso, os resultados indicam que os profissionais da indústria precisam de padrões de avaliação e regras mais rápidos e rigorosos para a utilização da IA na medicina.
Os pesquisadores testaram o modelo de linguagem grande da série o1 da OpenAI, lançado em 2024, em seis experimentos que combinaram casos clínicos padronizados com uma amostra do mundo real de pacientes de emergência selecionados aleatoriamente em um centro médico em Massachusetts.
A vantagem do modelo ficou mais evidente na triagem inicial, quando as decisões devem ser tomadas com pouca informação. Tanto os médicos humanos como o modelo de IA melhoraram à medida que mais dados se tornaram disponíveis para eles, mas o estudo descobriu que o LLM lidou melhor com a incerteza, utilizando dados e notas de saúde fragmentados ou não estruturados de forma mais eficaz.
Essas descobertas baseiam-se em décadas de uso de casos diagnósticos difíceis para avaliar sistemas de computação médica. Os LLMs anteriores já superaram as abordagens algorítmicas mais antigas, mas o que diferencia este estudo é a escala e a comparação direta entre um médico humano e a IA em um cenário clínico real.
Os autores enfatizaram que devemos permanecer céticos em relação a esses resultados. O verdadeiro trabalho clínico em hospitais e salas de emergência depende frequentemente de pistas visuais e auditivas – em vez de raciocínio baseado em texto – que a IA não consegue interpretar de forma completa e precisa. “É necessário trabalho futuro para avaliar como humanos e máquinas podem colaborar efetivamente no uso de sinais não textuais”, observa o estudo.
Ao considerar cuidados médicos assistidos por IA, também é fundamental avaliar se serão seguros, equitativos e rentáveis, aspectos que não foram testados neste estudo.
Leia também: Se o conselho de saúde sobre IA da Apple estiver chegando, quero estar pronto
“Para encurtar a história, o modelo superou nossa grande linha de base médica. Você verá isso em detalhes, mas isso incluiu médicos certificados, praticantes ativos e casos realmente complicados”, disse Arjun Manrai, professor assistente de Informática Biomédica na Harvard Medical School, durante uma coletiva de imprensa virtual.
“Não acho que nossas descobertas signifiquem que a IA substitua os médicos, apesar do que algumas empresas provavelmente dirão e de como provavelmente usarão esses resultados”, disse Manrai. “Acho que isso significa que estamos testemunhando uma mudança realmente profunda na tecnologia que irá remodelar a medicina, e que precisamos avaliar esta tecnologia agora e conduzi-la rigorosamente em ensaios clínicos prospectivos”.
Reguladores, hospitais e prestadores de cuidados de saúde devem trabalhar em conjunto para testar exaustivamente estas ferramentas antes de serem implementadas, a fim de garantir a segurança e a equidade para todos os pacientes.
Num comentário também publicado quinta-feira na Science, Ashley M. Hopkins e Eric Cornelisse, investigadores da Universidade Flinders, na Austrália, escreveram que o estudo é um passo em direcção a uma melhor avaliação dos sistemas de IA nos cuidados de saúde, mas que a medicina é um campo complexo que requer uma supervisão rigorosa para garantir que os pacientes recebam o melhor cuidado possível.
“Não permitimos que os médicos pratiquem sem supervisão e avaliação, e a IA deve ser mantida em padrões comparáveis”, disse Cornelisse num comunicado.
Leia também: AI Chatbots perdem mais da metade dos diagnósticos médicos, conclui estudo













