Claude bate ChatGPT em teste de leitura complexa, mas IA ainda falha em análise e compreensão

Washington Post também avaliou Gemini, Copilot e Meta AI, que se saíram consideravelmente pior que as rivais de Anthropic e OpenAI

Claude superou ChatGPT em 1,5 ponto, com 69,9 pontos contra 68,4 da rival (Getty Images)

Redator

Publicado em 5 de junho de 2025 às 17h24.

Todos os modelos de inteligência artificial mais populares conseguem resumir documentos, desde contratos até livros inteiros. Mas qual deles se destaca? E será que essas ferramentas realmente entendem o conteúdo e entregam resultados que atendem às expectativas dos usuários? Para responder a essas perguntas, o jornalista Geoffrey Fowler, do Washington Post, promoveu uma competição entre ChatGPT, Claude, Copilot, Meta AI e Gemini.

Quatro tipos de documentos foram usados para avaliar as IAs, incluindo um romance, pesquisa médica, contratos jurídicos e discursos do presidente Donald Trump. Posteriormente, especialistas analisaram as respostas dadas às 115 questões feitas aos modelos. O teste revelou que, enquanto alguns bots se saíram bem, outros demonstraram dificuldades significativas. Com exceção do Claude, todos os outros “alucinaram” em algum momento, ou seja, inventaram informações.

Claude, da Anthropic, e ChatGPT, da OpenAI, dividiram as duas primeiras posições em quase todos os critérios. A única exceção foi na análise de contratos jurídicos, em que o ChatGPT foi penúltimo. Em literatura e política, o modelo da OpenAI foi o melhor, enquanto, em direito e pesquisa científica, o vencedor foi o Claude.

No geral, com pontuações de 0 a 100, a IA da Anthropic foi considerada vencedora no teste com 69,9 pontos, superando por 1,5 ponto o ChatGPT, que obteve 68,4. Gemini, do Google, Copilot, da Microsoft, e Meta AI ficaram bem abaixo, com 49,7, 49 e 45 pontos, respectivamente.

Enquanto três dos cinco modelos não alcançaram uma pontuação satisfatória, já que as médias acadêmicas geralmente exigem notas acima de 60 ou 70 para aprovação, as IAs vencedoras superaram ou chegaram bem perto dessa marca.

Conclusões do teste

É evidente que algumas inteligências artificiais se saíram melhores que outras no teste do Washington Post. A IA da Meta, por exemplo, apresentou dificuldades generalizadas em todas as áreas analisadas, enquanto a vencedora, Claude, teve destaque por não ter "alucinado" em nenhum momento.

A conclusão do teste é clara: embora a IA tenha grande potencial para ser uma ferramenta útil, especialmente em tarefas de resumo, ela ainda não pode substituir completamente o trabalho humano. Para documentos importantes, como contratos, é recomendável usar a IA como apoio, sempre realizando uma leitura pessoal detalhada. As ferramentas tendem a exagerar aspectos positivos e omitir pontos negativos, principalmente em textos complexos, como os jurídicos.

Acompanhe tudo sobre:Inteligência artificial OpenAI Microsoft Google Meta

Como agência de espionagem ucraniana usou drones com IA para atacar bases russas

Mais de Inteligência Artificial

Gênios da IA já valem mais de R$ 500 milhões: ex-VP do Google acha valor 'pechincha'

Mais na Exame

Imagem referente à matéria: Em caso inédito, ração tóxica causa a morte de 284 cavalos, diz Ministério da Agricultura

EXAME Agro

Inteligência Artificial

Claude bate ChatGPT em teste de leitura complexa, mas IA ainda falha em análise e compreensão

Washington Post também avaliou Gemini, Copilot e Meta AI, que se saíram consideravelmente pior que as rivais de Anthropic e OpenAI

Conclusões do teste

Mais de Inteligência Artificial

Gênios da IA já valem mais de R$ 500 milhões: ex-VP do Google acha valor 'pechincha'

Fabricante de chips para IA, Ambiq Micro busca levantar US$ 85 milhões em IPO

Dario Amodei revela dilema ético na busca da Anthropic por capital em ditaduras do Oriente Médio

Trump e big techs lançaram plano de US$ 500 bi para IA — mas o projeto emperrou

Mais na Exame

Em caso inédito, ração tóxica causa a morte de 284 cavalos, diz Ministério da Agricultura

Trump anuncia 'maior acordo comercial já feito' com o Japão, incluindo tarifas de 15%

Brasil pode redirecionar exportações afetadas por tarifas dos EUA? Especialista responde

Mega-Sena: resultado do concurso 2.891; prêmio é de R$ 30,2 milhões