Claude superou ChatGPT em 1,5 ponto, com 69,9 pontos contra 68,4 da rival (Getty Images)
Redator
Publicado em 5 de junho de 2025 às 17h24.
Todos os modelos de inteligência artificial mais populares conseguem resumir documentos, desde contratos até livros inteiros. Mas qual deles se destaca? E será que essas ferramentas realmente entendem o conteúdo e entregam resultados que atendem às expectativas dos usuários? Para responder a essas perguntas, o jornalista Geoffrey Fowler, do Washington Post, promoveu uma competição entre ChatGPT, Claude, Copilot, Meta AI e Gemini.
Quatro tipos de documentos foram usados para avaliar as IAs, incluindo um romance, pesquisa médica, contratos jurídicos e discursos do presidente Donald Trump. Posteriormente, especialistas analisaram as respostas dadas às 115 questões feitas aos modelos. O teste revelou que, enquanto alguns bots se saíram bem, outros demonstraram dificuldades significativas. Com exceção do Claude, todos os outros “alucinaram” em algum momento, ou seja, inventaram informações.
Claude, da Anthropic, e ChatGPT, da OpenAI, dividiram as duas primeiras posições em quase todos os critérios. A única exceção foi na análise de contratos jurídicos, em que o ChatGPT foi penúltimo. Em literatura e política, o modelo da OpenAI foi o melhor, enquanto, em direito e pesquisa científica, o vencedor foi o Claude.
No geral, com pontuações de 0 a 100, a IA da Anthropic foi considerada vencedora no teste com 69,9 pontos, superando por 1,5 ponto o ChatGPT, que obteve 68,4. Gemini, do Google, Copilot, da Microsoft, e Meta AI ficaram bem abaixo, com 49,7, 49 e 45 pontos, respectivamente.Enquanto três dos cinco modelos não alcançaram uma pontuação satisfatória, já que as médias acadêmicas geralmente exigem notas acima de 60 ou 70 para aprovação, as IAs vencedoras superaram ou chegaram bem perto dessa marca.
É evidente que algumas inteligências artificiais se saíram melhores que outras no teste do Washington Post. A IA da Meta, por exemplo, apresentou dificuldades generalizadas em todas as áreas analisadas, enquanto a vencedora, Claude, teve destaque por não ter "alucinado" em nenhum momento.
A conclusão do teste é clara: embora a IA tenha grande potencial para ser uma ferramenta útil, especialmente em tarefas de resumo, ela ainda não pode substituir completamente o trabalho humano. Para documentos importantes, como contratos, é recomendável usar a IA como apoio, sempre realizando uma leitura pessoal detalhada. As ferramentas tendem a exagerar aspectos positivos e omitir pontos negativos, principalmente em textos complexos, como os jurídicos.