Estudo da Universidade de Oxford utilizou três IAs: GPT-4o, da OpenAI, Llama 3, da Meta, e Command R+, da Cohere (Freepik)
Redator
Publicado em 16 de junho de 2025 às 10h18.
Apesar dos avanços significativos, um estudo recente revela que o uso de grandes modelos de linguagem (LLMs) para diagnóstico médico ainda não é ideal, principalmente quando operado por humanos para autodiagnóstico. Em um experimento realizado pela Universidade de Oxford, a performance de participantes humanos usando LLMs foi significativamente mais baixa do que o esperado, apontando as limitações do modelo no contexto prático.
Embora possam identificar condições médicas corretamente em 94,9% dos cenários apresentados, os participantes humanos que usaram IAs para se autodiagnosticar erraram em quase 66% dos casos. Essa discrepância destaca um problema comum: os modelos funcionam bem quando processam dados de forma isolada, mas as interações com humanos, que frequentemente omitem informações ou descrevem sintomas de maneira vaga, dificultam os resultados.Utilizando umas das IAs analisadas – GPT-4o, da OpenAI, Llama 3, da Meta, ou Command R+, da Cohere –, pacientes do estudo tiveram desempenho pior do que o grupo de controle, instruído apenas a usar “qualquer método que normalmente usariam em casa”. Com 76% mais chances de acertar o próprio diagnóstico sem IA, o estudo demonstrou que, apesar do vasto acesso a dados médicos, a eficácia dos modelos depende da clareza e precisão das informações fornecidas pelos usuários, o que nem sempre ocorre.
Quando as próprias IAs foram testadas em um ambiente controlado, com interações simuladas, a taxa de acerto foi de 60,7%, significativamente superior aos 34,5% dos participantes humanos. Isso indica que, quando os LLMs interagem entre si, seu desempenho é muito melhor do que nas interações com humanos.
Esse estudo levanta questões cruciais sobre a real aplicabilidade dos LLMs na área da saúde, principalmente sem a supervisão de profissionais. Embora sejam eficazes para processar grandes volumes de dados, a interação com os usuários humanos ainda precisa ser aprimorada para garantir diagnósticos precisos e confiáveis.
Portanto, antes de serem amplamente adotados em diagnósticos médicos, as IAs devem ser melhor adaptadas para levar em conta as nuances e complexidades das interações humanas, garantindo que possam fornecer resultados confiáveis e úteis para os usuários.