Não ligue para o seu “médico” de IA favorito ainda
Imagens Just_Super/Getty
Modelos avançados de inteligência synthetic marque bem em exames médicos profissionais, mas ainda assim foi reprovado em uma das tarefas médicas mais cruciais: conversar com os pacientes para coletar informações médicas relevantes e fornecer um diagnóstico preciso.
“Embora grandes modelos de linguagem apresentem resultados impressionantes em testes de múltipla escolha, sua precisão cai significativamente em conversas dinâmicas”, diz Pranav Rajpurkar na Universidade de Harvard. “Os modelos lutam particularmente com o raciocínio diagnóstico aberto.”
Isso ficou evidente quando os pesquisadores desenvolveram um método para avaliar as capacidades de raciocínio de um modelo clínico de IA com base em conversas simuladas entre médico e paciente. Os “pacientes” foram baseados em 2.000 casos médicos extraídos principalmente de exames profissionais do conselho médico dos EUA.
“A simulação das interações dos pacientes permite a avaliação das habilidades de obtenção de histórico médico, um componente crítico da prática clínica que não pode ser avaliado por meio de vinhetas de casos”, diz Shreya Johritambém na Universidade de Harvard. O novo referencial de avaliação, denominado CRAFT-MD, também “espelha cenários da vida actual, onde os pacientes podem não saber quais detalhes são cruciais para compartilhar e podem apenas divulgar informações importantes quando solicitados por questões específicas”, diz ela.
O próprio benchmark CRAFT-MD depende de IA. O modelo GPT-4 da OpenAI desempenhou o papel de uma “IA do paciente” em conversa com a “IA clínica” que estava sendo testada. O GPT-4 também ajudou a avaliar os resultados comparando o diagnóstico da IA clínica com a resposta correta para cada caso. Especialistas médicos humanos verificaram novamente essas avaliações. Eles também revisaram as conversas para verificar a precisão da IA do paciente e ver se a IA clínica conseguiu reunir as informações médicas relevantes.
Vários experimentos mostraram que quatro modelos líderes de grandes linguagens – modelos GPT-3.5 e GPT-4 da OpenAI, modelo Llama-2-7b da Meta e modelo Mistral-v2-7b da Mistral AI – tiveram desempenho consideravelmente pior no benchmark baseado em conversação do que quando fazer diagnósticos com base em resumos escritos dos casos. OpenAI, Meta e Mistral AI não responderam aos pedidos de comentários.
Por exemplo, a precisão diagnóstica do GPT-4 foi de impressionantes 82 por cento quando foi apresentado resumos de casos estruturados e permitiu selecionar o diagnóstico a partir de uma lista de respostas de múltipla escolha, caindo para pouco menos de 49 por cento quando não tinha o opções de múltipla escolha. Porém, quando teve que fazer diagnósticos a partir de conversas simuladas com pacientes, sua precisão caiu para apenas 26%.
E o GPT-4 foi o modelo de IA de melhor desempenho testado no estudo, com o GPT-3.5 geralmente ficando em segundo lugar, o modelo Mistral AI às vezes ficando em segundo ou terceiro e o modelo Llama da Meta geralmente com pontuação mais baixa.
Os modelos de IA também não conseguiram reunir históricos médicos completos numa proporção significativa do tempo, com o modelo líder GPT-4 a fazê-lo apenas em 71% das conversas simuladas com pacientes. Mesmo quando os modelos de IA reuniam o histórico médico relevante de um paciente, nem sempre produziam os diagnósticos corretos.
Essas conversas simuladas com pacientes representam uma forma “muito mais útil” de avaliar as capacidades de raciocínio clínico da IA do que exames médicos, diz Eric Topol no Scripps Analysis Translational Institute, na Califórnia.
Se um modelo de IA eventualmente passar neste padrão, fazendo diagnósticos precisos de forma consistente com base em conversas simuladas de pacientes, isso não o tornará necessariamente superior aos médicos humanos, diz Rajpurkar. Ele ressalta que a prática médica no mundo actual é “mais confusa” do que nas simulações. Envolve o gerenciamento de múltiplos pacientes, a coordenação com equipes de saúde, a realização de exames físicos e a compreensão de “fatores sociais e sistêmicos complexos” em situações locais de saúde.
“O forte desempenho no nosso benchmark sugere que a IA pode ser uma ferramenta poderosa para apoiar o trabalho clínico – mas não necessariamente um substituto para o julgamento holístico de médicos experientes”, diz Rajpurkar.
Tópicos: