Inteligência Artificial

Claude bate ChatGPT em teste de leitura complexa, mas IA ainda falha em análise e compreensão

Washington Post também avaliou Gemini, Copilot e Meta AI, que se saíram consideravelmente pior que as rivais de Anthropic e OpenAI

Claude superou ChatGPT em 1,5 ponto, com 69,9 pontos contra 68,4 da rival (Getty Images)

Claude superou ChatGPT em 1,5 ponto, com 69,9 pontos contra 68,4 da rival (Getty Images)

Publicado em 5 de junho de 2025 às 17h24.

Todos os modelos de inteligência artificial mais populares conseguem resumir documentos, desde contratos até livros inteiros. Mas qual deles se destaca? E será que essas ferramentas realmente entendem o conteúdo e entregam resultados que atendem às expectativas dos usuários? Para responder a essas perguntas, o jornalista Geoffrey Fowler, do Washington Post, promoveu uma competição entre ChatGPT, Claude, Copilot, Meta AI e Gemini.

Quatro tipos de documentos foram usados para avaliar as IAs, incluindo um romance, pesquisa médica, contratos jurídicos e discursos do presidente Donald Trump. Posteriormente, especialistas analisaram as respostas dadas às 115 questões feitas aos modelos. O teste revelou que, enquanto alguns bots se saíram bem, outros demonstraram dificuldades significativas. Com exceção do Claude, todos os outros “alucinaram” em algum momento, ou seja, inventaram informações.

Claude, da Anthropic, e ChatGPT, da OpenAI, dividiram as duas primeiras posições em quase todos os critérios. A única exceção foi na análise de contratos jurídicos, em que o ChatGPT foi penúltimo. Em literatura e política, o modelo da OpenAI foi o melhor, enquanto, em direito e pesquisa científica, o vencedor foi o Claude.

No geral, com pontuações de 0 a 100, a IA da Anthropic foi considerada vencedora no teste com 69,9 pontos, superando por 1,5 ponto o ChatGPT, que obteve 68,4. Gemini, do Google, Copilot, da Microsoft, e Meta AI ficaram bem abaixo, com 49,7, 49 e 45 pontos, respectivamente.

Enquanto três dos cinco modelos não alcançaram uma pontuação satisfatória, já que as médias acadêmicas geralmente exigem notas acima de 60 ou 70 para aprovação, as IAs vencedoras superaram ou chegaram bem perto dessa marca.

Conclusões do teste

É evidente que algumas inteligências artificiais se saíram melhores que outras no teste do Washington Post. A IA da Meta, por exemplo, apresentou dificuldades generalizadas em todas as áreas analisadas, enquanto a vencedora, Claude, teve destaque por não ter "alucinado" em nenhum momento.

A conclusão do teste é clara: embora a IA tenha grande potencial para ser uma ferramenta útil, especialmente em tarefas de resumo, ela ainda não pode substituir completamente o trabalho humano. Para documentos importantes, como contratos, é recomendável usar a IA como apoio, sempre realizando uma leitura pessoal detalhada. As ferramentas tendem a exagerar aspectos positivos e omitir pontos negativos, principalmente em textos complexos, como os jurídicos.
Acompanhe tudo sobre:Inteligência artificialOpenAIMicrosoftGoogleMeta

Mais de Inteligência Artificial

Noé influencer? Ferramenta de IA transforma personagens da Bíblia em celebridades da internet

Claude, ChatGPT, Copilot, Meta e Gemini: quem vence a batalha de chatbots?

Anthropic lança Claude Gov, modelos de IA personalizados para clientes da segurança nacional dos EUA

OpenAI recorre de decisão em caso movido pelo New York Times