Marcos MagalhãesAvanços em Inteligência Artificial (IA) e em Processamento de Linguagem Natural (PNL) levaram a ferramentas sofisticadas como o GPT-4.0, permitindo aos médicos explorar sua utilidade como ferramenta de apoio à gestão em saúde. O oncologista Marcos Magalhães (foto) é primeiro autor de estudo apresentado em poster no ESMO 2023, que avaliou a capacidade do GPT-4 de sugerir o diagnóstico definitivo e a investigação mais adequada para minimizar procedimentos desnecessários.

Os pesquisadores realizaram uma análise comparativa retrospectiva, extraindo informações relevantes a partir de dados clínicos de 10 casos publicados no NEJM após 2022. Os dados foram inseridos no GPT-4 para gerar recomendações de diagnóstico e investigação diagnóstica. O endpoint primário foi a capacidade de identificar corretamente o diagnóstico final. Endpoints secundários incluíram a capacidade de listar os diagnóstico definitivo nos cinco diagnósticos diferenciais mais prováveis e determinar uma investigação adequada.

Os resultados de Magalhães e colegas mostram que a IA não conseguiu identificar o diagnóstico definitivo em 2 dos 10 casos (20% de imprecisão). Dos 8 casos corretamente identificados pela IA, 5 (63%) tiveram diagnóstico definitivo com base na lista de diagnóstico diferencial. Em relação à sugestão de testes e exames diagnósticos, a solicitações de exames que não auxiliaram no diagnóstico final foi feito em 2 casos, representando 40% dos pacientes cujo diagnóstico final não foi identificado corretamente pela IA. Além disso, a IA não foi capaz de sugerir tratamento adequado em 7 casos (70%). Entre eles, a IA sugeriu tratamento inapropriado para 2 casos, e os 5 restantes receberam respostas incompletas ou aconselhamento inespecífico, como indicação de quimioterapia, sem especificar o melhor regime.

“Nosso estudo demonstrou o potencial do GPT-4 como ferramenta de apoio acadêmico, embora não tenha conseguido identificar corretamente o diagnóstico final em 20% dos casos. Há também uma limitação quanto ao manejo sugerido pela IA. Nos casos em que a principal hipótese diagnóstica foi identificada incorretamente ou não foi listada como principal diferencial diagnóstico, a IA solicitou testes diagnósticos adicionais desnecessários para 40% dos pacientes”, concluem os autores.  

Magalhães e colegas destacam que pesquisas futuras devem se concentrar na avaliação do desempenho do GPT-4 usando uma amostra mais extensa e diversificada, incorporando avaliações prospectivas e investigando sua capacidade de otimizar procedimentos diagnósticos e terapêuticos para otimizar a utilização de cuidados de saúde.

Além de Marcos Magalhães, o estudo conta com a participação de Pedro Aguiar Junior, Brunela Lenzi Fabre, Felipe Marques, Bárbara Gutierres e William William, além do oncologista Auro Del Giglio como autor sênior.

Referência: Evaluating GPT-4 as an academic support tool for clinicians: a comparative analysis of case records from the literature - M.A. Fonseca Magalhaes Filho1, P.N. Aguiar Junior2, B.L. Fabre1, F. Marques3, B. Gutierres4, W. Nassib William Junior5, A. Del Giglio2